公告版位111

 

http://rawgraphs.io/

https://plotdb.com/

 

https://d3js.org/

 

 

 

 

 

 

 

MR. MINING 發表在 痞客邦 留言(0) 人氣()

先貼幾個大家在數據分析工具的選用上的建議及偏好,提供給大家參考。

總結到最後,總是會因為SAS, SPSS等套裝軟體太貴而不被選用,而開源(open source)的數據分析工具中最被常使用的不外乎就是R和Python,所以常常有在到底要選擇R及Python的討論。

R及Python最大的差異點在於Python本身是通用性的程式語言,而R則是專門為數據/統計分析學門而存在的工具,所以Python在這方面就佔了極大優勢,因為Python除了可以拿來作數據分析外,還可以拿來處理更多的案例。而且在所謂「大數據 」的應用環境上,Python也提供許多不需額外coding的套件,使用大數據分析開發更為便捷。但是如果是真的要在真的大數據平台上開發的話,例如:Spark,那比較建議你還是使用它專門的編輯程式語言Scala。

總結:程式語言的更新與演進是不間斷的,怎麼學也學不完。如果在這個時間點你對Python及R都還不熟的話,那就先學Python吧!

  •  

  •  

MR. MINING 發表在 痞客邦 留言(0) 人氣()

通常在統計的分析報告中你會看到這樣的用語「在95%的信心水準下,平均值會落在某某誤差區間內。」

 

這裡的「95%的信心水準」是指在95%的時候可以得到距真實值這麼近的結果。也就是說,有5%的情況下樣本與真實值會超過的誤差界限。

 

有幾個重點你必需知道的:

  1. 我們無法得知這組樣本是屬於「95%中了」的那組,或是「5%沒有」的那組。只能說有95%的把握。
  2. 如果要把信心水準拉大到99%,那就得接受比95%信心時大的「誤差界限」。
  3. 如果要把信心水準拉大到100%,那就得把誤差界限拉大到0到1,但這樣的結論就沒有用處了。
  4. 如果要在相同的信心水準下要求較小的誤差界限,那就要取大一點的樣本。

 

 

 

 

 

 

MR. MINING 發表在 痞客邦 留言(0) 人氣()

資料庫(database)是指對於相關資料的蒐集,資料庫系統(database system)則是指資料庫與資料庫系統。傳統的資料庫支援線上交易處理Online transcation processing(OLTP) 會對於處理查詢進行最佳化。

而資料倉儲(Data warehouse)也是一個資訊的蒐集及支援系統,但比較明顯的是資料倉儲是對資料的取回(retrival)進行最佳化,而資料庫著重於例行的交易處理。而資料倉儲中之多維度的資料模型常可用來進行Roll-up display : 群組化相關的資料(例如:加總周、月、年總量)或Drill-down display:與roll-up相反,其可以拆解至其組成之細項資料。資料倉儲適合用來支援OLAP, DSS(Decision support system)及Data mining。

線上分析處理Online analytical processing (OLAP)是描述從資料倉儲中分析複雜的資料。

 

 

 

MR. MINING 發表在 痞客邦 留言(0) 人氣()

作者簡介

奧斯汀‧克隆 Austin Kleon

10個創作者生存必備的新原則,這本書要告訴你,你一定要敞開心胸,大方分享,勇敢面對──成為其他創作者會來偷學的創作者。

無論職業為何,都會把分享當成例行公事。他們會在工作室裡、實驗室裡、或者辦公室座位上努力工作,對於自已現下的工作開誠布公,絕對不會保密到家,並待續在網路上分享工作內容的點點滴滴,包括點子與學習感想。

我們許多人埋頭工作,一整天下來卻覺得沒有什麼好分享。但無論你的工作本質為何,你的所作所為都是一門藝術; 只要你用對的方式呈現,就會有人對那一門藝術感到興味盎然。

「發文的時候,要把每個讀者都當成可以開除你的老闆」

「我們都喜歡把自已想成很複的人,兩句話是說不完的,但其實全世界的人通常只想聽我們解釋兩句就好。只要簡單介紹自已的優點。」

  1. 你不必是天才
  2. 要想過程,不要想成品
  3. 每天都分享一點點
  4. 打開你的奇寶房
  5. 說好聽的故事
  6. 教別人你會的東西
  7. 別變成人肉垃圾郵件
  8. 學著挨打
  9. 賣出/出賣
  10. 堅持下去


 

文章標籤

MR. MINING 發表在 痞客邦 留言(0) 人氣()

  • 這樣思考,和好運交朋友:發現與善用人生好運的13種思考術

  • 作者:馬克思.岡瑟(Max Gunther)
  • 出版社:九印
  • 出版日期:2014-04-02


作者大膽認為── 不管你對「成功」的定義是什麼,好運都是「成功」的基本因素。成功的人也是容易得到好運的人。

作者研究一千多個個案, 他發現有些人真的比別人幸運,比別人容易成功,透過對這群人生命軌跡的歸納與分析,整理出一組類似的思考及行為模式,也就是能在變化無常的人生旅途中,幫自己定位好運的十三種思考術。 這些思考術不迷信、也不會違背你的任何信念。

作者以為「無論你把這十三個思考術實踐得多麼好,你仍然可能遭遇癌症、盜竊甚至戰爭等災難。相反地,你可能沒有實踐任何思考法,一直過著不怎麼走運的生活,你也可能不知道從什麼地方就獲得意外的一大筆財富。 不論我們是否歡迎,運氣自然地來去。好運和厄運交織在人們的生活中,讓一些人快樂,一些人悲傷,還有些人死亡。 毫無疑問,你的生活在你讀到這本書之前,就已經受到運氣的影響了。而且,運氣會繼續擺布你,無論你讀了什麼,思考了什麼。但是現在,你有了十三種思考術可以運用。

 

"運氣"是指能對你的生活施加影響,卻不是因為你的意願而產生的事件。然而奇怪的是,人自卻不怎麼談論運氣,因為大家都希望自已掌控運命,安心地躲在這個假象的陰影下生活。然而我相信"運氣"對於成功的的影響力,僅僅自已做的好是遠遠不夠的。

 

定位好運的13種思考術

1 幸運的人知道"運氣"和"規畫"截然不同 (Making the Luck/ Planning Distinction)

提高運氣的第一步就是要承認運氣的存在。一個幸運型的人格,應該用與關注自身同樣多的力氣去關注外在。

 

2 到人事物快速流動的地方,幸運就來找你 (Finding the Fast Flow)

找到人事物速流動的所在,到事物發展最快的地方,幸運就來找你。擁有達運人格的人,會去結識他視線範圍內的每一個人,對生活周糟的人事物多一點眼神與關注,讓別人感受到我們的友善。讓他們知道你所期待的幸運轉捩點是什麼,這很重要。

 

3 具備評估冒險的能力,能更接近好運 (Risk Spooning)

你必需冒臉。就算的樂透這樣的小小冒險,你也應該要去嘗試,因為如果你不下注,就完全沒有贏的可能。但也有一些人,會犯相反的錯誤;為了小小的回報,甘冒巨大的風險。不論你如何定義成功,風險都是享受成功生活不可缺少的因素。從現在起,請試著尋找冒險。

 

4 幸運周期通常是短暫的,適可而止 (Run Cutting)

一定要把自已的好運視為短暫的,不要享用好運到極致,不要強求運氣。成功的祕訞就是不貪心。

 

5 具備選擇運氣的能力 (Luck Selection)

選擇運氣很難的原因之一就是,需要放棄既有的投資。不管具體是什麼,當你拋棄壞運時,同時你也必需拋棄你既有的東西。「如果你想要百分之一百的把握,你將會寸步難行。」

 

6 走Z字形的路,善用意外發現 (The Zigzag Path)

對於長遠計劃絕不要太認真,只要它符合你的願望,就把它當作一個大致的指導原則。抓住意外發現的能力或習慣,就是要抓住你不曾預料到的好運氣。不幸者常常堅守一個既定的人生路線,沒有出路,每況愈下也不知道轉變。永遠不要耽心人生的曲折。不要給自已定型,不要固守僵化。

 

7 幸運者有自己的建設性超自然主義 (Constructive Supernalturalism)

迷信,也可以幫助你。它可以使你面臨一個方向時有一種安全感。若能有好的超自然信念來幫助你冒險,並在缺乏資訊時做出決定,你就會比垂頭喪氣坐在兩裡要幸運一些。

 

8 能分析到最糟糕的情況 (Worst-Case Analyasis)

「最糟糕」的結果,具體的是什麼?最極端的錯誤將會如何? 如果發生了最糟糕的情況,我怎麼保護自已?

 

9 幸運者避免廢話,真正的聆聽 (The Closed Mouth)

幸運者總是必免廢話。「睿智年邁的貓鷹棲息在橡樹上,它觀察愈多,它講話就愈少。它講託愈少,它聽到的就愈多。我們為什麼就為能像它?」對於自已的問題、計畫和情感,避免不必要的談論,如果沒有說的理申,請緊閉雙唇。

 

10 其實沒有什麼功課要學習,只是運氣 (Recognizing a Nonlesson)

幸運者知道,有些經驗,根本沒有任何功課可以學習。而不幸者的特點就是,習慣從生活中的隨機事件,學到錯誤的功課。"歷史是胡說八道,歷史從來都不會重演" -->這是很大的一種指控......作者認為:歷史是特定時期,不計質數的人的行為、思想與情感綜合作用的結果。

 

11 接受世界本來就是不公平的 (Accepting an Unfair Universe)

只是壞運而已----對,壞運。公平是人類創造的概念。觀察人類生活,並接受它來到的方式:無序和不公。

 

12 樂在忙碌越幸運 (The Juggling Act)

幸運的人總是同時嘗式做很多冒險。幸運者總是會找到一些方法,成功地悠遊於忙碌。

 

13 運氣伙伴出現時,別放走他 (Destiny Pairing)

只有長期改變你的運氣的某個人,才可稱得上為命運伙伴。

MR. MINING 發表在 痞客邦 留言(0) 人氣()

原文:http://blog.import.io/post/20-questions-to-detect-...

數據科學家是正式的21世紀最性感的工作,每個人都想分一杯羹。人們誰稱自己數據的科學家,但誰實際上並沒有正確的技能。很多人可能會認為他們是數據科學家,純粹是因為他們處理的數據。 

kirk.jpg

“假的數據科學家往往是專家在一個特定的領域,堅持認為他們的領域是唯一真正的數據科學。這種信念的數據科學是指科學的工具和技術(數學,計算,正視化,分析,統計,實驗,問題的定義,建立模型和驗證等),以獲得新發現的全部武器的應用程序來看,洞察力和價值,從數據收集。“

柯克源性,在主要的數據科學家博思艾倫諮詢公司和創始人RocketDataScience.org

為了幫助您排序從假冒(或誤導)一個真正的數據科學家,我們已經整理20個面試問題:


  1. 解釋什麼正規化,以及為什麼它是非常有用的。 Explain what regularization is and why it is useful. 
  2. 哪些數據科學家做你最欣賞?該初創公司?Which data scientists do you admire most? which startups?
  3. 你將如何驗證您創建生成採用多元回歸定量結果變量的預測模型的模型。 How would you validate a model you created to generate a predictive model of a quantitative outcome variable using multiple regression. 
  4. 解釋什麼精度和召回。他們如何涉及到ROC曲線?Explain what precision and recall are. How do they relate to the ROC curve?
  5. 你怎麼能證明你帶到一個算法的一個改進是一個真正的改進,沒有做任何事情? How can you prove that one improvement you've brought to an algorithm is really an improvement over not doing anything? 
  6. 什麼是根本原因分析?What is root cause analysis?
  7. 你熟悉定價優化,價格彈性,庫存管理,競爭情報?舉例說明。Are you familiar with pricing optimization, price elasticity, inventory management, competitive intelligence? Give examples. 
  8. 什麼是統計力量?What is statistical power?
  9. 解釋什麼是重採樣方法是,為什麼他們是有用的。同時解釋其局限性。Explain what resampling methods are and why they are useful. Also explain their limitations.
  10. 它是更好地有太多的誤報,或者太多的假陰性?說明。Is it better to have too many false positives, or too many false negatives? Explain.
  11. 什麼是選擇偏倚,為什麼它很重要,你怎麼能避免呢? What is selection bias, why is it important and how can you avoid it? 
  12. 列舉一個你將如何使用實驗設計來回答一個關於用戶行為的問題的一個例子。Give an example of how you would use experimental design to answer a question about user behavior. 
  13. “長”和“寬”格式數據之間的區別是什麼?What is the difference between "long" and "wide" format data?
  14. 你用什麼方法來確定是否公佈的統計資料中的文章(如報紙)或者是錯誤的或者提出支持作者的觀點,而不是在一個特定的主題正確,全面真實的信息?What method do you use to determine whether the statistics published in an article (e.g. newspaper) are either wrong or presented to support the author's point of view, rather than correct, comprehensive factual information on a specific subject?
  15. 解釋愛德華·塔夫特的理念,以“圖表垃圾”。Explain Edward Tufte's concept of "chart junk."
  16. 你會如何篩選異常值,你應該怎樣做,如果你找到一個? How would you screen for outliers and what should you do if you find one? 
  17. 如何將您使用的極值理論,蒙特卡洛模擬或數理統計(或其他東西)正確估計一個非常罕見的事件的機會呢?How would you use either the extreme value theory, monte carlo simulations or mathematical statistics (or anything else) to correctly estimate the chance of a very rare event?
  18. 什麼是推薦引擎?它是如何工作的?What is a recommendation engine? How does it work?
  19. 解釋一下什麼是假陽性和假陰性的。為什麼是重要的相互區分這些? Explain what a false positive and a false negative are. Why is it important to differentiate these from each other? 
  20. 你使用的可視化工具的哪一個?你怎麼想的Tableau的?R' SAS?(用於圖形)。如何有效地表示5維的圖表(或視頻)?
  21. Which tools do you use for visualization? What do you think of Tableau? R? SAS? (for graphs). How to efficiently represent 5 dimension in a chart (or in a video)?


你如何來量化一個真正的數據科學家?

MR. MINING 發表在 痞客邦 留言(0) 人氣()

這裡有30哈佛商業評論(HBR)上的大數據科學分析提供最新的技術和事件數據的世界的見解的文章。

 

Source : http://www.kdnuggets.com/2015/09/30-hbr-articles-analytics-big-data-science.html

 

On Data Science

  1. Data Scientist: the sexiest job of the 21st century by Thomas H. Davenport and D.J. Patil (Oct 2012) 

How the idea of LinkedIn's People You May Know feature really clicked! The key player involved was a "Data Scientist", a title coined by the two authors.

  1. The Sexiest Job of the 21st Century is Tedious, and that Needs to Change by Sean Kandel (Apr 2014) 

Which phase does a data scientist spend more time on? Data Discovery, data structuring and creating context. Should they shift their focus?

With the right mix of technical skill & human judgment, machine learning could be a new tool for decision makers. Learn what mistakes to avoid.

We are at a new phase of big data. Is Data capture and storage now less relevant than making it more useful & impactful?

What makes an exceptional data scientist? Data by itself is meaningless. The skill & curiosity is what makes the difference.

How to derive insights & intuitions from data? We “humanize” the data by turning raw numbers into a story about our performance.

Better than the Best! Great data scientists bring four mutually reinforcing traits to bear that even the good ones can’t.

Data scientist jobs are very much in demand as companies grapple with the challenge of making valuable discoveries from Big Data. Is a huge crowd just joining the bandwagon?

  1. 10 Kinds of Stories to Tell with Data by Tom Davenport (Nov 2013)
    Narrative is—along with visual analytics—an important way to communicate analytical results to non-analytical people. Explore the 10 types.
  2. How to Start Thinking Like a Data Scientist by Thomas C. Redman (Nov 2013) 
    You don’t have to be a data scientist or a Bayesian statistician to tease useful insights from data. The author demonstrates how to think with a small exercise.
  3. Stop Searching for That Elusive Data Scientist by Michael Schrage(Sep 2014) 
    Stop hunting for that data science unicorn and/or silver bullet. What to do instead?
  4. How to Explore Cause and Effect Like a Data Scientist by Thomas C. Redman (Feb 2014) 
    While we can use data to understand correlation, the more fundamental understanding of cause and effect requires more.
    1. You May Not Need Big Data After All by Jeanne W. Ross, Cynthia M. Beath and Anne Quaadgras (Dec 2013) 
      Companies are investing like crazy in data scientists, data warehouses, and data analytics software. Should they channelize their efforts?
    2. Big Data Hype (and Reality) by Gregory Piatetsky-Shapiro (Oct 2012) 
      Does your big data have big impact? The potential of “big data” has been receiving tremendous attention lately. The author analyzes using practical scenarios.
    3. With Big Data Comes Big Responsibility by Harvard Business Review Staff (Nov 2014) 
      An interview with Alex “Sandy” Pentland, the Toshiba Professor of Media Arts and Sciences at MIT who talks about the principles " A New Deal on data".
    4. Inventory Management in the Age of Big Data by Morris A. Cohen (Jun 2015) 
      Managers will need to redesign their supply-chain processes to make effective use of new data to stay competitive.
    5. Why Health Care May Finally Be Ready for Big Data by Nilay D. Shah and Jyotishman Pathak (Dec 2014) 
      Explore the key elements that are crucial for health care to truly capture the value of big data.
    6. What the Companies Winning at Big Data Do Differently by Satya Ramaswamy(Jun 2013) 
      A brief analysis of Netflix success using consumer behavior data. How big data can change the structure of an industry by fundamentally shifting the power.
    7. Stop Worrying About Whether Machines Are “Intelligent”. by JC Spender (Aug 2015) 
      Are we right to be afraid that the machines may take over? An interesting read about Turing's test and machine intelligence.
    8. Are You Data Driven? Take a Hard Look in the Mirror. by Andrew McAfee and Erik Brynjolfsson (Oct 2012) 
      The term “data driven” is penetrating the lexicon ever more deeply these days. What are the traits?
    9. Marketers Flunk the Big Data Test by Mick Collins (Apr 2015) 
      Marketing in particular is feeling the pressure to embrace new data-driven customer intelligence capabilities. Learn more about the key findings.
      1. Simplify Your Analytics Strategy by Narendra Mulani 
        Companies can get stuck trying to analyze all that’s possible and all that they could do through analytics. How to strategize to avoid this?
      2. Making Advanced Analytics Work for You by Dominic Barton and David Court 
        Big data could transform the way companies do business, delivering performance gains. How to get the strategy suited to your needs?
      3. A Predictive Analytics Primer by Tom Davenport (Sep 2014) 
        A brief read on predictive analytics with a focus on customers.
      4. The Persuasiveness of a Chart Depends on the Reader, Not Just the Chart by Scott Berinato (May 2015) 
        What's more a better way to persuade people than visual information? An interesting read on how good is your data chart is based on the audience's understanding of it and cognitive state.
      5. Analytics 3.0 by Thomas H. Davenport (Dec 2013) 
        A new resolve to apply powerful data-gathering and analysis methods not just to a company’s operations but also to its offerings—to embed data smartness into the products and services customers buy.
      6. What People Analytics Can’t Capture by Daniel Goleman (July 2015) 
        The latest fad in human resources, using big data analytics and personality test scores to predict who is best for a given job – so-called “XQ.”. Do the scores capture accurately all the required skills?
      7. Gamification Can Help People Actually Use Analytics Toolsby Lori Sherer-(Feb 2015) 
        You have to identify the right data and develop useful tools, such as predictive algorithms. But then comes an even tougher task: getting people to actually use the new tools.
      8. What Popular Baby Names Teach Us About Data Analytics by Kaiser Fung (Apr 2015) 
        Find out what FiveThirtyEight’s Nate Silver and Allison McCann did with the baby names dataset sets an example for all data analysts. Their article represents the best of data journalism.
      9. A Better Way to Tackle All That Data by Chris Taylor (Aug 2013)
        Hampered by a shortage of qualified data scientists to perform the work of analysis, big data’s rise is outstripping our ability to perform analysis and reach conclusions fast enough.

MR. MINING 發表在 痞客邦 留言(0) 人氣()

在開收資料大商機(Open data now, Joel Gurin)一書中,作者的定義為:「可取得的公開資料,讓人們、公司,以及組織可用以創立新事業、分析型能與趨勢、做出資料導向決策,以及解決複雜問題。」

Deloitte, Harvey Lewis將開收資料領域的企業區分為五大類:

  • 供應商(Supplier):資料供應者-不收費
  • 匯總者(Aggregators):分析並提供洞察-收費
  • 軟體開發商(Developers):設計並建立應用程式
  • 改進者(Enrichers):使用開放資料來改進現有產品與服務
  • 輔助者(Enablers):幫助其他公司更善於利用開收資料-收費

MR. MINING 發表在 痞客邦 留言(0) 人氣()

Datafication

首先,Datafication,這個字是MS office也拼不出來的新單字。

「Data」在拉丁文的意思是「既定的」,講的是一件事實。歐幾里得有一部著作以此為書名,是從已知、或是能夠加以解釋的方面,來解釋何學。到了今日,「資料」指的是能夠記錄、分析、重組的事物。

 

Implications

與巨量資料相關的公司,目前可分為三種類型:資料、技術、思維

  1. 資料:擁有資料、或至少能存取使用資料的公司。這些不司不一定是以資料本身做為業務、或者不一定有適合的技術來汲取資料的價值,又或者不具備創意想法、不知道裡面有何價值。Tiwtter.
    • ITA為全球第四大機票購票網站,該公司提供資料給Farecast做票價預測,但並為自已進行分析。因為這並非ITA的核心能力,而且如果自已作分析,還要討論專利權的問題才行。ITA選擇迴避這些業務。
    • 但是MasterCard Advisors選擇自已來分析。它有能力匯整分析交易記綠,希望找出商業和消費趨勢,然後該公司便能夠出售相關資訊。
    • 資料持有人的後熱看漲,但某些情況下,將會出現資料中介機構(data intermediary),能夠從多方收集資料來匯整,並用作創新用途。Inrix
    • —從資料持有人手中取得資料,卻不會危及資料持有人的商業模式。—但是,隨著世界變得資料化,愈來愈多企業發現其核心業務可從資料中學習而來,這些獨立的資訊中介機構也可能會轉移陣地。
       
  2. 技術:顧問公司、技術供應商和分析提供商。Teradata
  3. 思維:利用獨特理念,想到如何挖掘資料、發掘新價值。Peter Warden

 

MR. MINING 發表在 痞客邦 留言(0) 人氣()