http://rawgraphs.io/
https://plotdb.com/
https://d3js.org/
http://rawgraphs.io/
https://plotdb.com/
https://d3js.org/
先貼幾個大家在數據分析工具的選用上的建議及偏好,提供給大家參考。
總結到最後,總是會因為SAS, SPSS等套裝軟體太貴而不被選用,而開源(open source)的數據分析工具中最被常使用的不外乎就是R和Python,所以常常有在到底要選擇R及Python的討論。
R及Python最大的差異點在於Python本身是通用性的程式語言,而R則是專門為數據/統計分析學門而存在的工具,所以Python在這方面就佔了極大優勢,因為Python除了可以拿來作數據分析外,還可以拿來處理更多的案例。而且在所謂「大數據 」的應用環境上,Python也提供許多不需額外coding的套件,使用大數據分析開發更為便捷。但是如果是真的要在真的大數據平台上開發的話,例如:Spark,那比較建議你還是使用它專門的編輯程式語言Scala。
總結:程式語言的更新與演進是不間斷的,怎麼學也學不完。如果在這個時間點你對Python及R都還不熟的話,那就先學Python吧!
通常在統計的分析報告中你會看到這樣的用語「在95%的信心水準下,平均值會落在某某誤差區間內。」
這裡的「95%的信心水準」是指在95%的時候可以得到距真實值這麼近的結果。也就是說,有5%的情況下樣本與真實值會超過的誤差界限。
有幾個重點你必需知道的:
資料庫(database)是指對於相關資料的蒐集,資料庫系統(database system)則是指資料庫與資料庫系統。傳統的資料庫支援線上交易處理Online transcation processing(OLTP) 會對於處理查詢進行最佳化。
而資料倉儲(Data warehouse)也是一個資訊的蒐集及支援系統,但比較明顯的是資料倉儲是對資料的取回(retrival)進行最佳化,而資料庫著重於例行的交易處理。而資料倉儲中之多維度的資料模型常可用來進行Roll-up display : 群組化相關的資料(例如:加總周、月、年總量)或Drill-down display:與roll-up相反,其可以拆解至其組成之細項資料。資料倉儲適合用來支援OLAP, DSS(Decision support system)及Data mining。
線上分析處理Online analytical processing (OLAP)是描述從資料倉儲中分析複雜的資料。
作者簡介
奧斯汀‧克隆 Austin Kleon
10個創作者生存必備的新原則,這本書要告訴你,你一定要敞開心胸,大方分享,勇敢面對──成為其他創作者會來偷學的創作者。
無論職業為何,都會把分享當成例行公事。他們會在工作室裡、實驗室裡、或者辦公室座位上努力工作,對於自已現下的工作開誠布公,絕對不會保密到家,並待續在網路上分享工作內容的點點滴滴,包括點子與學習感想。
我們許多人埋頭工作,一整天下來卻覺得沒有什麼好分享。但無論你的工作本質為何,你的所作所為都是一門藝術; 只要你用對的方式呈現,就會有人對那一門藝術感到興味盎然。
「發文的時候,要把每個讀者都當成可以開除你的老闆」
「我們都喜歡把自已想成很複的人,兩句話是說不完的,但其實全世界的人通常只想聽我們解釋兩句就好。只要簡單介紹自已的優點。」
1. 你不必是天才
2. 要想過程,不要想成品
3. 每天都分享一點點
4. 打開你的奇寶房
5. 說好聽的故事
6. 教別人你會的東西
7. 別變成人肉垃圾郵件
8. 學著挨打
9. 賣出/出賣
10. 堅持下去
作者大膽認為── 不管你對「成功」的定義是什麼,好運都是「成功」的基本因素。成功的人也是容易得到好運的人。
作者研究一千多個個案, 他發現有些人真的比別人幸運,比別人容易成功,透過對這群人生命軌跡的歸納與分析,整理出一組類似的思考及行為模式,也就是能在變化無常的人生旅途中,幫自己定位好運的十三種思考術。 這些思考術不迷信、也不會違背你的任何信念。
作者以為「無論你把這十三個思考術實踐得多麼好,你仍然可能遭遇癌症、盜竊甚至戰爭等災難。相反地,你可能沒有實踐任何思考法,一直過著不怎麼走運的生活,你也可能不知道從什麼地方就獲得意外的一大筆財富。 不論我們是否歡迎,運氣自然地來去。好運和厄運交織在人們的生活中,讓一些人快樂,一些人悲傷,還有些人死亡。 毫無疑問,你的生活在你讀到這本書之前,就已經受到運氣的影響了。而且,運氣會繼續擺布你,無論你讀了什麼,思考了什麼。但是現在,你有了十三種思考術可以運用。
"運氣"是指能對你的生活施加影響,卻不是因為你的意願而產生的事件。然而奇怪的是,人自卻不怎麼談論運氣,因為大家都希望自已掌控運命,安心地躲在這個假象的陰影下生活。然而我相信"運氣"對於成功的的影響力,僅僅自已做的好是遠遠不夠的。
定位好運的13種思考術
1 幸運的人知道"運氣"和"規畫"截然不同 (Making the Luck/ Planning Distinction)
提高運氣的第一步就是要承認運氣的存在。一個幸運型的人格,應該用與關注自身同樣多的力氣去關注外在。
2 到人事物快速流動的地方,幸運就來找你 (Finding the Fast Flow)
找到人事物速流動的所在,到事物發展最快的地方,幸運就來找你。擁有達運人格的人,會去結識他視線範圍內的每一個人,對生活周糟的人事物多一點眼神與關注,讓別人感受到我們的友善。讓他們知道你所期待的幸運轉捩點是什麼,這很重要。
3 具備評估冒險的能力,能更接近好運 (Risk Spooning)
你必需冒臉。就算的樂透這樣的小小冒險,你也應該要去嘗試,因為如果你不下注,就完全沒有贏的可能。但也有一些人,會犯相反的錯誤;為了小小的回報,甘冒巨大的風險。不論你如何定義成功,風險都是享受成功生活不可缺少的因素。從現在起,請試著尋找冒險。
4 幸運周期通常是短暫的,適可而止 (Run Cutting)
一定要把自已的好運視為短暫的,不要享用好運到極致,不要強求運氣。成功的祕訞就是不貪心。
5 具備選擇運氣的能力 (Luck Selection)
選擇運氣很難的原因之一就是,需要放棄既有的投資。不管具體是什麼,當你拋棄壞運時,同時你也必需拋棄你既有的東西。「如果你想要百分之一百的把握,你將會寸步難行。」
6 走Z字形的路,善用意外發現 (The Zigzag Path)
對於長遠計劃絕不要太認真,只要它符合你的願望,就把它當作一個大致的指導原則。抓住意外發現的能力或習慣,就是要抓住你不曾預料到的好運氣。不幸者常常堅守一個既定的人生路線,沒有出路,每況愈下也不知道轉變。永遠不要耽心人生的曲折。不要給自已定型,不要固守僵化。
7 幸運者有自己的建設性超自然主義 (Constructive Supernalturalism)
迷信,也可以幫助你。它可以使你面臨一個方向時有一種安全感。若能有好的超自然信念來幫助你冒險,並在缺乏資訊時做出決定,你就會比垂頭喪氣坐在兩裡要幸運一些。
8 能分析到最糟糕的情況 (Worst-Case Analyasis)
「最糟糕」的結果,具體的是什麼?最極端的錯誤將會如何? 如果發生了最糟糕的情況,我怎麼保護自已?
9 幸運者避免廢話,真正的聆聽 (The Closed Mouth)
幸運者總是必免廢話。「睿智年邁的貓鷹棲息在橡樹上,它觀察愈多,它講話就愈少。它講託愈少,它聽到的就愈多。我們為什麼就為能像它?」對於自已的問題、計畫和情感,避免不必要的談論,如果沒有說的理申,請緊閉雙唇。
10 其實沒有什麼功課要學習,只是運氣 (Recognizing a Nonlesson)
幸運者知道,有些經驗,根本沒有任何功課可以學習。而不幸者的特點就是,習慣從生活中的隨機事件,學到錯誤的功課。"歷史是胡說八道,歷史從來都不會重演" -->這是很大的一種指控......作者認為:歷史是特定時期,不計質數的人的行為、思想與情感綜合作用的結果。
11 接受世界本來就是不公平的 (Accepting an Unfair Universe)
只是壞運而已----對,壞運。公平是人類創造的概念。觀察人類生活,並接受它來到的方式:無序和不公。
12 樂在忙碌越幸運 (The Juggling Act)
幸運的人總是同時嘗式做很多冒險。幸運者總是會找到一些方法,成功地悠遊於忙碌。
13 運氣伙伴出現時,別放走他 (Destiny Pairing)
只有長期改變你的運氣的某個人,才可稱得上為命運伙伴。
原文:http://blog.import.io/post/20-questions-to-detect-...
數據科學家是正式的21世紀最性感的工作,每個人都想分一杯羹。人們誰稱自己數據的科學家,但誰實際上並沒有正確的技能。很多人可能會認為他們是數據科學家,純粹是因為他們處理的數據。
“假的數據科學家往往是專家在一個特定的領域,堅持認為他們的領域是唯一真正的數據科學。這種信念的數據科學是指科學的工具和技術(數學,計算,正視化,分析,統計,實驗,問題的定義,建立模型和驗證等),以獲得新發現的全部武器的應用程序來看,洞察力和價值,從數據收集。“
- 柯克源性,在主要的數據科學家博思艾倫諮詢公司和創始人RocketDataScience.org
為了幫助您排序從假冒(或誤導)一個真正的數據科學家,我們已經整理20個面試問題:
這裡有30哈佛商業評論(HBR)上的大數據科學分析提供最新的技術和事件數據的世界的見解的文章。
Source : http://www.kdnuggets.com/2015/09/30-hbr-articles-analytics-big-data-science.html
On Data Science
How the idea of LinkedIn's People You May Know feature really clicked! The key player involved was a "Data Scientist", a title coined by the two authors.
Which phase does a data scientist spend more time on? Data Discovery, data structuring and creating context. Should they shift their focus?
With the right mix of technical skill & human judgment, machine learning could be a new tool for decision makers. Learn what mistakes to avoid.
We are at a new phase of big data. Is Data capture and storage now less relevant than making it more useful & impactful?
What makes an exceptional data scientist? Data by itself is meaningless. The skill & curiosity is what makes the difference.
How to derive insights & intuitions from data? We “humanize” the data by turning raw numbers into a story about our performance.
Better than the Best! Great data scientists bring four mutually reinforcing traits to bear that even the good ones can’t.
Data scientist jobs are very much in demand as companies grapple with the challenge of making valuable discoveries from Big Data. Is a huge crowd just joining the bandwagon?
在開收資料大商機(Open data now, Joel Gurin)一書中,作者的定義為:「可取得的公開資料,讓人們、公司,以及組織可用以創立新事業、分析型能與趨勢、做出資料導向決策,以及解決複雜問題。」
Deloitte, Harvey Lewis將開收資料領域的企業區分為五大類:
Datafication
首先,Datafication,這個字是MS office也拼不出來的新單字。
「Data」在拉丁文的意思是「既定的」,講的是一件事實。歐幾里得有一部著作以此為書名,是從已知、或是能夠加以解釋的方面,來解釋何學。到了今日,「資料」指的是能夠記錄、分析、重組的事物。
Implications
與巨量資料相關的公司,目前可分為三種類型:資料、技術、思維