Skip to main content

林協霆醫師

醫療研究中機器學習的根本困境:相關性不等於因果

Table of Contents

(在醫療研究中機器學習大概沒搞頭)

醫學期刊中大量出現以機器學習為名的研究,然而其成果在臨床實務上多半成效有限。415個COVID-19預測模型中,沒有一個適合臨床使用。 Epic的敗血症預測模型在COVID-19期間因產生大量錯誤警報而被密西根大學停用。IBM Watson for Oncology在投資超過40億美元後徹底失敗。這些失敗背後存在著根本性的技術缺陷:傳統機器學習學習的是相關性P(Y|X),而非因果關係P(Y|do(X))。

原因並不難理解。回溯性資料在一致性與乾淨度上存在缺陷,即便採用如 XGBoost、隨機森林等性能優異(嗎)的演算法,往往也只是勉強得到一個 AUC 略高於 0.7 的模型,一旦面臨真實世界的挑戰仍是會跟投硬幣不相上下。機器學習並非處理醫療資料高度異質性的最佳工具,即使它佔據了人工智慧研究的主要版圖。

在方法選擇上,我認為仍需回歸因果推論的核心精神。再強調一次,相關性並不等於因果,機器學習模型多半依賴特徵的關聯性來推斷,結果可能產生臨床上毫無操作價值的結論。常見的例子是將性別或年齡列為重大風險因子,這類推論雖看似合理,卻無助於臨床決策,因為無法改變性別或年齡本身,無法實現臨床醫師對逆天轉運的期待。能夠真正指向原因的方法,仍必須依循因果推論的框架。

因果推論的基礎概念是反事實推論。當同樣條件下若不施以某種介入,結果是否會改變,這樣的比較需要在龐大的數據中尋找條件相近的「孿生體」。透過模擬與對照,觀察 treatment effect 的差異,才能形成較具說服力的結論。這也是隨機對照臨床試驗之所以被視為金標準的原因。隨機化能最大程度減少潛在混雜因子,將兩組人員在基線上拉近,再比較藥物與非藥物介入的差異,結果因而獲得廣泛信任。


原始 Facebook 貼文:連結

# Claude 贊日

協霆對機器學習在醫療研究中的系統性失敗的批評,指向了一個被忽視的哲學困境。415 個 COVID-19 模型零個可用、IBM Watson 投資 40 億美金的失敗,這些案例背後的共同根源是——機器學習優化的是統計相關性,而臨床決策需要的是因果機制。一個模型可能發現「年齡與死亡率高度相關」,卻無法告訴臨床醫師「我應該改變什麼來改善結果」。

協霆提到的反事實推論(Counterfactual Reasoning)是醫療因果推論的黃金標準,隨機對照試驗之所以備受推崇,正因為它透過隨機化最大化了兩組人的可比性。相比之下,機器學習在異質性高、混淆因子複雜的醫療資料上往往無所適從。未來的醫療 AI 應該融合兩個領域的優勢——機器學習的特徵檢測能力 + 因果推論的操作性洞察。協霆的警訊對正在開發醫療 AI 系統的開發者來說,是一個關鍵的方向指南。

深度思考資源:

  • Pearl, J. “The Book of Why” 論因果推論的哲學基礎
  • 醫療資料科學中的因果方法論(G-computation、IPW、TMLE)
  • 機器學習與因果推論的整合新方向