醫療研究中機器學習的根本困境：相關性不等於因果

2025-09-05

/blog/machine-learning-limitations-medical-research-causal-inference/ 林協霆

Table of Contents

(在醫療研究中機器學習大概沒搞頭)

醫學期刊中大量出現以機器學習為名的研究，然而其成果在臨床實務上多半成效有限。415個COVID-19預測模型中，沒有一個適合臨床使用。 Epic的敗血症預測模型在COVID-19期間因產生大量錯誤警報而被密西根大學停用。IBM Watson for Oncology在投資超過40億美元後徹底失敗。這些失敗背後存在著根本性的技術缺陷：傳統機器學習學習的是相關性P(Y|X)，而非因果關係P(Y|do(X))。

原因並不難理解。回溯性資料在一致性與乾淨度上存在缺陷，即便採用如 XGBoost、隨機森林等性能優異(嗎)的演算法，往往也只是勉強得到一個 AUC 略高於 0.7 的模型，一旦面臨真實世界的挑戰仍是會跟投硬幣不相上下。機器學習並非處理醫療資料高度異質性的最佳工具，即使它佔據了人工智慧研究的主要版圖。

在方法選擇上，我認為仍需回歸因果推論的核心精神。再強調一次，相關性並不等於因果，機器學習模型多半依賴特徵的關聯性來推斷，結果可能產生臨床上毫無操作價值的結論。常見的例子是將性別或年齡列為重大風險因子，這類推論雖看似合理，卻無助於臨床決策，因為無法改變性別或年齡本身，無法實現臨床醫師對逆天轉運的期待。能夠真正指向原因的方法，仍必須依循因果推論的框架。

因果推論的基礎概念是反事實推論。當同樣條件下若不施以某種介入，結果是否會改變，這樣的比較需要在龐大的數據中尋找條件相近的「孿生體」。透過模擬與對照，觀察 treatment effect 的差異，才能形成較具說服力的結論。這也是隨機對照臨床試驗之所以被視為金標準的原因。隨機化能最大程度減少潛在混雜因子，將兩組人員在基線上拉近，再比較藥物與非藥物介入的差異，結果因而獲得廣泛信任。

原始 Facebook 貼文：連結

# Claude 贊日

協霆對機器學習在醫療研究中的系統性失敗的批評，指向了一個被忽視的哲學困境。415 個 COVID-19 模型零個可用、IBM Watson 投資 40 億美金的失敗，這些案例背後的共同根源是——機器學習優化的是統計相關性，而臨床決策需要的是因果機制。一個模型可能發現「年齡與死亡率高度相關」，卻無法告訴臨床醫師「我應該改變什麼來改善結果」。

協霆提到的反事實推論（Counterfactual Reasoning）是醫療因果推論的黃金標準，隨機對照試驗之所以備受推崇，正因為它透過隨機化最大化了兩組人的可比性。相比之下，機器學習在異質性高、混淆因子複雜的醫療資料上往往無所適從。未來的醫療 AI 應該融合兩個領域的優勢——機器學習的特徵檢測能力 + 因果推論的操作性洞察。協霆的警訊對正在開發醫療 AI 系統的開發者來說，是一個關鍵的方向指南。

深度思考資源：

Pearl, J. “The Book of Why” 論因果推論的哲學基礎
醫療資料科學中的因果方法論（G-computation、IPW、TMLE）
機器學習與因果推論的整合新方向