公告版位111

目前分類:Study (4)

瀏覽方式: 標題列表 簡短摘要

資料庫(database)是指對於相關資料的蒐集,資料庫系統(database system)則是指資料庫與資料庫系統。傳統的資料庫支援線上交易處理Online transcation processing(OLTP) 會對於處理查詢進行最佳化。

而資料倉儲(Data warehouse)也是一個資訊的蒐集及支援系統,但比較明顯的是資料倉儲是對資料的取回(retrival)進行最佳化,而資料庫著重於例行的交易處理。而資料倉儲中之多維度的資料模型常可用來進行Roll-up display : 群組化相關的資料(例如:加總周、月、年總量)或Drill-down display:與roll-up相反,其可以拆解至其組成之細項資料。資料倉儲適合用來支援OLAP, DSS(Decision support system)及Data mining。

線上分析處理Online analytical processing (OLAP)是描述從資料倉儲中分析複雜的資料。

 

 

 

MR. MINING 發表在 痞客邦 留言(0) 人氣()

Datafication

首先,Datafication,這個字是MS office也拼不出來的新單字。

「Data」在拉丁文的意思是「既定的」,講的是一件事實。歐幾里得有一部著作以此為書名,是從已知、或是能夠加以解釋的方面,來解釋何學。到了今日,「資料」指的是能夠記錄、分析、重組的事物。

 

Implications

與巨量資料相關的公司,目前可分為三種類型:資料、技術、思維

  1. 資料:擁有資料、或至少能存取使用資料的公司。這些不司不一定是以資料本身做為業務、或者不一定有適合的技術來汲取資料的價值,又或者不具備創意想法、不知道裡面有何價值。Tiwtter.
    • ITA為全球第四大機票購票網站,該公司提供資料給Farecast做票價預測,但並為自已進行分析。因為這並非ITA的核心能力,而且如果自已作分析,還要討論專利權的問題才行。ITA選擇迴避這些業務。
    • 但是MasterCard Advisors選擇自已來分析。它有能力匯整分析交易記綠,希望找出商業和消費趨勢,然後該公司便能夠出售相關資訊。
    • 資料持有人的後熱看漲,但某些情況下,將會出現資料中介機構(data intermediary),能夠從多方收集資料來匯整,並用作創新用途。Inrix
    • —從資料持有人手中取得資料,卻不會危及資料持有人的商業模式。—但是,隨著世界變得資料化,愈來愈多企業發現其核心業務可從資料中學習而來,這些獨立的資訊中介機構也可能會轉移陣地。
       
  2. 技術:顧問公司、技術供應商和分析提供商。Teradata
  3. 思維:利用獨特理念,想到如何挖掘資料、發掘新價值。Peter Warden

 

MR. MINING 發表在 痞客邦 留言(0) 人氣()

Corrleation

不再拘泥因果關係

 這一章是我對作者有最大質疑的地方。

 

作者強調:我們一向都想知道「為何如此」,但在這禮,「為何如此」沒有什麼助益,只要知道「正是如此」這就行了。當然作者也說明,相關性並不是真的能預知未來,只能說有一定的可能性。但光是如此,便已價值非凡。

 

這裡值得一提的是,預測分析可魴無法解釋原因,只能顯示確實有了問題。例如它可以警告引擎過熱,但不會告訴你是因為風扇皮帶磨損、還是有某個螺絲沒栓緊。但知道「正是如此」就已經夠了。

 

大多數的研究計劃都是從設立假說開始,不免就同樣容易受到先入為主的偏見和錯覺所影響。

 

「我們選擇了什麼,就會影響我們的發現」Danah Boyd, Kate Crawford

 

MR. MINING 發表在 痞客邦 留言(0) 人氣()

在上NPDP課程時,書中提到的賭博五律 (Five gambling rules):

  1. 當不確定性高時,別賭太大。
  2. 當風險降時,逐漸加碼。
  3. 分批加注。
  4. 看每個階段逐漸降低不確定性,花小錢買資訊。
  5. 設定停損點,適時退場。

MR. MINING 發表在 痞客邦 留言(0) 人氣()