close
異常值的偵測可以應用於許多領域上,但也常會遇到以下的挑戰:
- 很難有效地為正常/異常物件建置模型: 通常而言,正常與異常的界限並不十分明確,而且存在著很大的灰色地帶。甚至有一些異常值偵測(Outlier Detection)的方法論不會直接為物件定義(正常)或(異常),而是給每個物件一個所謂的異常分數(Outlier-ness)。
- 特定領域的異常偵測:技術上來說,在異常偵測中,相似度及距離量測的方法選用是相當關鍵的。但不幸的是,這些方法的選擇通常與其應用領域有極大的相關。不同的應用領域會有不用的需求。例如:在醫學資料的分析上,很小的變異程度就足夠被定義為異常。但相對的,在市場分析上,所分析的物件通常有很大的變異,所以可能需要用比較大的變異才能用來定義市場上的異常。所以異常偵測通常很難被發展為一通用的方法。
- 在異常偵測中的雜音處理(Handling Noise): 如同上一篇文章中所提到的,異常(Outlier)與雜音(Noise)是不同的。而且大家也都有所認知,我們所分析的資料的品質一般是不好的。在這之中,雜音(Noise)可能以變異或是遺值(data missing)的方式出現,而將真正的異常(Outlier)給隱藏了。
- 可解讀性(Understandability):在某些應用領域中,使用者可能不只要找出異常值,更想要了解這些物件為何是異常值。為了要達到這個"可解讀性"的需求,在設計異常值偵測的方法時,則必需給予充分的理由。
全站熱搜
留言列表