Fabio Lauria

離群族群:資料科學與成功故事的結合

2025 年 8 月 11 日
在社交媒體上分享

離群概念的演變

現代資料科學徹底改變了我們了解離群值的方式,將離群值從純粹需要消除的「錯誤」轉變為有價值的資訊來源。與此同時,Malcolm Gladwell 的著作"離群者:成功的故事"為我們提供了一個互補的觀點,將人類的成功視為統計上異常但有意義的現象。

從簡單的工具到複雜的方法

在傳統的統計學中,離群值是透過相對簡單的方法來識別的,例如 boxplots、Z-score(量度數值偏離平均值的程度)和四分位數範圍 (IQR)。

這些方法雖然有用,但有很大的限制。只需要一個離群值就可以完全扭曲線性迴歸模型 - 例如,將斜率從 2 增加到 10。 這使得傳統的統計模型在現實世界的環境中很容易受到影響。

機器學習引入了更複雜的方法來克服這些限制:

  • IsolationForest:透過建構隨機判斷樹來「隔離」離羣組的演算法。離群點的隔離速度往往比正常點快,需要的分割次數也較少。
  • 局部離群因子:此方法分析每個點周圍的局部密度。與其鄰近點相比,密度較低的區域中的點會被視為離群。
  • Autoencoder (自動編碼器):可學習壓縮和重構正常資料的神經網路。當某個點難以重構 (產生高誤差),就會被視為異常。

現實世界中的離群值類型

La 資料科學區分了不同類別的離群值,每種離群值都有其獨特的影響:

  • 全球離群值:與整個資料集相比明顯超出規模的數值,例如在熱帶氣候中錄得 -10°C 的溫度。
  • 上下文離群值:在一般情況下看似正常,但在特定情境中卻是異常值的數值。例如,低收入社區的 1,000 歐元支出或凌晨 3 點突然增加的網路流量。
  • 集合離群值:集合在一起顯示異常行為的數值群組。一個典型的例子是網路流量的同步尖峰,這可能表示受到網路攻擊。

與 Gladwell 成功理論的相似之處

10,000 小時規則」及其限制

Gladwell 在書中提出了著名的「10,000 小時定律」,認為專業知識需要這個特定數量的刻意練習。他舉了一些例子,例如 Bill Gates,當他還是青少年時,就擁有使用電腦終端機的特權,累積了寶貴的編程時間。

這個理論雖然引人入勝,但隨著時間的推移也受到了批評。正如 Paul McCartney 所指出的:「有很多樂團在漢堡進行了 10,000 小時的練習,卻沒有獲得成功,所以這並不是一個萬無一失的理論」。

這個規則背後的概念本身已經受到多位作者和學者的質疑,而我們自己對於這個理論的有效性或其普遍性也有強烈的懷疑。對於那些有興趣探索本書所討論問題的人,我指出 這個例子但如果您有興趣,您可以找到更多的例子。

同樣地,在資料科學方面,我們也意識到重要的不只是資料的數量,而是資料的品質和情境。演算法不會隨著資料的增加而自動變得更好 - 它需要對情境的了解和適當的品質。

文化背景的重要性

Gladwell 強調文化如何深刻地影響成功的機率。例如,他討論了亞洲稻農的後代如何傾向於在數學上表現優異,這並不是因為遺傳的原因,而是因為語言和文化的因素:

  • 中文數字系統更直觀,發音所需的音節更少。
  • 水稻種植與西方農業不同,需要不斷艱苦改進現有技術,而不是擴展到新的土地上。

這種文化觀察與現代資料科學中針對異常值的情境方法產生共鳴。正如一個數值在某個情境中可能是異常的,但在另一個情境中卻可能是正常的一樣,成功也有其深刻的情境性。

緩解策略:我們能做什麼?

在現代資料科學中、 不同的策略使用不同的策略來處理離群:

  1. 移除:僅對於明顯錯誤(如負年齡)才合理,但有風險,因為可能會移除重要信號
  2. 轉換:「winsorizing」(以較不極端的值取代極端的值)等技術可減少扭曲的影響,從而保存資料。
  3. 演算法選擇: 使用對離群具有本質穩健性的模型,例如隨機森林 (Random Forests),而非線性迴歸 (linear regression)。
  4. 生成修復:使用先進的技術,例如 GANs (Generative Adversarial Networks,生成虛擬網路) 來合成離群值的可信替代值。

機器學習和人工智慧中離群值檢測的真實案例研究

最近離群值和異常偵測方法的應用,徹底改變了各行各業組織識別異常模式的方式:

銀行與保險

一個特別有趣的案例研究是關於應用基於強化學習的離群點偵測技術,來分析荷蘭保險和養老基金所報告的微細資料。根據償付能力 II 和 FTK 監管框架,這些金融機構必須提交需要仔細驗證的大型資料集。研究人員開發了一種合集方法,結合了多種離群值識別演算法,包括四分位距分析、最近鄰距離度量和局部離群值因子計算,並使用強化學習來優化合集權重。.1.

與傳統的統計方法相比,此系統已展現出顯著的改進,每驗證一次異常現象,系統就會持續改進其偵測能力,因此對於驗證成本高昂的法規監督而言,此系統尤其具有價值。這種適應性方法可解決隨時間改變的資料模式所帶來的挑戰,將先前已驗證的異常現象的效用最大化,以提高未來的偵測準確度。

在另一個值得注意的實作中,一家銀行實施了整合式異常偵測系統,將客戶行為的歷史資料與先進的機器學習演算法結合,以辨識潛在的詐欺交易。該系統監控交易模式,以偵測與既定客戶行為的偏差,例如活動的突然地理變化或異常消費量。.5.

此項實施特別值得注意,因為它體現了從被動反應到主動預防詐騙的轉變。據報導,英國金融業透過在所有銀行業務中實施類似的即時異常偵測系統,挽回了約 18% 的潛在損失。此方法可讓金融機構立即停止可疑交易,同時標示帳戶以作進一步調查,有效地在重大財務損失發生之前加以預防。.3

研究人員開發並評估了一種以機器學習為基礎的異常偵測演算法,此演算法專門用於驗證多個神經科學登錄中的臨床研究資料。該研究證明了該演算法在識別資料中由於注意力不集中、系統性錯誤或故意偽造數值所導致的異常模式方面的有效性。.4.

研究人員評估了幾種距離指標,發現坎培拉、曼哈頓和 Mahalanobis 距離計算的組合提供了最佳效能。在針對獨立資料集驗證時,該實作的偵測靈敏度達到 85% 以上,成為維持臨床研究資料完整性的重要工具。本案例說明異常偵測如何有助於循證醫學,確保臨床試驗和登錄的最高資料品質。.4.

該系統展示了其普遍適用性,顯示除了用於原始神經科學登記冊的系統之外,還有可能在其他電子資料擷取 (EDC) 系統中實作。這種適應性突顯出精心設計的異常偵測方法可在不同的健康資料管理平台之間轉移。

製造業

製造公司已採用精密的機器視覺異常偵測系統,以辨識製造零件中的瑕疵。這些系統使用影像識別演算法和在包含瑕疵和非瑕疵範例的大型資料集上訓練的機器學習模型,檢查生產線上數以千計的類似零件。.3

這些系統的實際執行代表了比人工檢驗流程更重大的進步。這些異常偵測系統甚至可以偵測到與既定標準最小的偏差,從而找出可能無法發現的潛在缺陷。這種能力在零件故障可能導致災難性結果的產業中尤其重要,例如航空製造業,一個故障零件就可能導致飛機事故。.

除了元件檢測之外,製造商也將故障偵測擴展至機器本身。這些實作會持續監控操作參數,例如引擎溫度和燃料水平,以便在造成生產停頓或安全風險之前找出潛在故障。.

各行各業的組織都已導入以深度學習為基礎的異常偵測系統,以改變應用程式效能管理的方法。傳統的監控方法會在問題影響作業後才做出反應,而這些實作方式則不同,可以識別潛在的關鍵問題。.

實施的一個重要方面是關於不同資料流與關鍵應用程式效能指標的關聯。這些系統經過大量歷史資料集的訓練,可辨識顯示應用程式正常運作的模式和行為。當發生偏差時,異常偵測演算法會在潛在問題轉變為服務中斷之前將其識別出來。

技術實作利用機器學習模型的能力,自動將各種效能指標的資料相互關聯,相較於傳統以臨界值為基礎的監控方法,能夠更精確地找出根本原因。使用這些系統的 IT 團隊可以更快速地診斷和處理新出現的問題,大幅減少應用程式停機時間及其對業務的影響。

EN

異常偵測電腦安全實作著重於持續監控網路流量和使用者行為模式,以辨識可能規避傳統安全措施的入侵或異常活動的細微跡象。這些系統會分析網路流量模式、使用者存取行為和系統存取嘗試,以偵測潛在的安全威脅。

實作對於識別基於特徵碼的偵測系統可能偵測不到的新攻擊模式特別有效。透過建立使用者和系統的基準行為,異常偵測可以標示偏離這些規範的活動,可能顯示正在發生的安全漏洞。此功能讓異常偵測成為現代電腦安全架構的重要元件,並補足傳統的預防措施。3.

從這些案例研究中,我們發現了幾種常見的實施方法。機構通常會結合使用描述性統計和機器學習技術,並根據資料的特性和潛在異常現象的性質選擇特定的方法。.2.

總結

這些真實案例研究證明了離群值和異常情況檢測在各行各業中的實用價值。從金融詐騙預防到醫療照護資料驗證,從生產品質控制到 IT 系統監控,各機構都已成功導入日益精密的偵測方法,以找出值得調查的異常模式。

從純粹的統計方法演進到以人工智慧為基礎的異常偵測系統,代表了能力上的重大進步,能夠更精確地辨識複雜的異常模式,並減少誤報。隨著這些技術的持續成熟和更多案例研究的出現,我們可以預期實施策略將進一步精進,並擴展到更多的應用領域。

現代資料科學建議使用混合方法來處理離群,結合統計精確度與機器學習的情境智慧:

  1. 使用傳統統計方法對資料進行初步探索
  2. 採用先進的 ML 演算法進行更精密的分析
  3. 對排斥偏見保持道德警覺
  4. 發展特定領域對何謂異常的理解

正如 Gladwell 邀請我們將成功視為一種受文化、機會和時機影響的複雜現象,現代資料科學也敦促我們不要將異常值視為簡單的錯誤,而是更廣泛背景下的重要信號。

擁抱生命中的異類

正如資料科學已從將異常值視為純粹的錯誤,轉變為認定它們是寶貴資訊的來源,我們也必須改變看待非常規職業的方式,也就是从簡單的數值分析,轉變為更深入、更符合情境的成功理解。

在任何領域,成功都來自於天賦、經驗累積、人脈網絡和文化背景的獨特交集。就像現代的機器學習演算法不再剔除異常值,而是尋求了解異常值一樣,我們也必須學會從最罕見的軌跡中看到價值。

Fabio Lauria

執行長暨創辦人 Electe

Electe 的 CEO,我幫助中小企業做出數據驅動的決策。我撰寫關於商業世界中人工智慧的文章。

最受歡迎
註冊以獲取最新消息

在您的收件箱中接收每週新聞和見解
。不要錯過

謝謝!已收到您提交的資料!
哎呀!提交表格時出錯了。