一般而言,異常值(Outlier)是指其資料顯著地別於其它的資料物件,且它是因為不同的機製所產生的。雖然有時我們把outlier稱為abnormal data,但並非所有的outlier都要排除。例如在信用卡詐騙偵測(credit card fraud detection)的分析上,客戶的abnormal行為就是分析上重要的特點。

而雜音(nosie)則是因隨機產生的誤差或變數,在資料探勘分析上,通常在異常值偵測(outlier detection)分析前,會先將雜音(nosie)去除。

異常值(Outlier)可大致分為三大類

Global outlier

也稱為 'point anomalies'。是指該資料有顯著地別於其它的資料集合,大多數的outlier detection都是在於尋找這類的異常值。

要有效偵測這類的異常,最重要的議題就是需針對欲分析的主題是要找到一個合適地衡量誤差(deviation)方法。用各種不同的方法轉換後,再用outlier detection的方法進行分類。

 Contextual outlier

也稱為conditionl outlier"。"今天的溫度是38度" <-這算是一個異常值(outler)嗎? 這很難有一個肯定的答案,因為仍需看這是在什麼'時間'及'地點'才能決定是否為異常值。所以contextual outlier需根據資料的特定內容(contex)來進行分析

  • Contextual attributes
  • Behavioral attributes

 Collective outlier

"每個月缺料10次"<-這是一個異常值(outler)嗎? 也許不是,但如果這10次缺料都發生在同一天,這就是很明顯的異常了。個別的資料並沒有異常,但如果這些資料都發生在特定的子集合上時,則可能為異常。故在異常偵淵上,我們也需要了解背景資料,才能有效分析。



arrow
arrow
    全站熱搜

    MR. MINING 發表在 痞客邦 留言(0) 人氣()