資料庫(database)是指對於相關資料的蒐集,資料庫系統(database system)則是指資料庫與資料庫系統。傳統的資料庫支援線上交易處理Online transcation processing(OLTP) 會對於處理查詢進行最佳化。
而資料倉儲(Data warehouse)也是一個資訊的蒐集及支援系統,但比較明顯的是資料倉儲是對資料的取回(retrival)進行最佳化,而資料庫著重於例行的交易處理。而資料倉儲中之多維度的資料模型常可用來進行Roll-up display : 群組化相關的資料(例如:加總周、月、年總量)或Drill-down display:與roll-up相反,其可以拆解至其組成之細項資料。資料倉儲適合用來支援OLAP, DSS(Decision support system)及Data mining。
線上分析處理Online analytical processing (OLAP)是描述從資料倉儲中分析複雜的資料。
MR. MINING 發表在 痞客邦 留言(0) 人氣()
Datafication
首先,Datafication,這個字是MS office也拼不出來的新單字。
「Data」在拉丁文的意思是「既定的」,講的是一件事實。歐幾里得有一部著作以此為書名,是從已知、或是能夠加以解釋的方面,來解釋何學。到了今日,「資料」指的是能夠記錄、分析、重組的事物。
Implications
與巨量資料相關的公司,目前可分為三種類型:資料、技術、思維
- 資料:擁有資料、或至少能存取使用資料的公司。這些不司不一定是以資料本身做為業務、或者不一定有適合的技術來汲取資料的價值,又或者不具備創意想法、不知道裡面有何價值。Tiwtter.
技術:顧問公司、技術供應商和分析提供商。Teradata
思維:利用獨特理念,想到如何挖掘資料、發掘新價值。Peter Warden
MR. MINING 發表在 痞客邦 留言(0) 人氣()
Corrleation
不再拘泥因果關係
這一章是我對作者有最大質疑的地方。
作者強調:我們一向都想知道「為何如此」,但在這禮,「為何如此」沒有什麼助益,只要知道「正是如此」這就行了。當然作者也說明,相關性並不是真的能預知未來,只能說有一定的可能性。但光是如此,便已價值非凡。
這裡值得一提的是,預測分析可魴無法解釋原因,只能顯示確實有了問題。例如它可以警告引擎過熱,但不會告訴你是因為風扇皮帶磨損、還是有某個螺絲沒栓緊。但知道「正是如此」就已經夠了。
大多數的研究計劃都是從設立假說開始,不免就同樣容易受到先入為主的偏見和錯覺所影響。
「我們選擇了什麼,就會影響我們的發現」Danah Boyd, Kate Crawford
MR. MINING 發表在 痞客邦 留言(0) 人氣()
在上NPDP課程時,書中提到的賭博五律 (Five gambling rules):
- 當不確定性高時,別賭太大。
- 當風險降時,逐漸加碼。
- 分批加注。
- 看每個階段逐漸降低不確定性,花小錢買資訊。
- 設定停損點,適時退場。
MR. MINING 發表在 痞客邦 留言(0) 人氣()