topological-stratification-aml:以拓樸資料分析建立 AML 轉錄體風險分層管線
Table of Contents
#
Introduction(引言)
急性骨髓性白血病(AML)在分子層面具有高度異質性,傳統分子分類(如 ELN 風險分層)能解釋部分預後差異,但對眾多基因表現異常仍缺乏統一視角。拓樸資料分析(topological data analysis, TDA)以 Mapper、persistent homology 等工具,能在高維資料中萃取「形狀」訊息,捕捉一般降維方法(PCA、UMAP)易忽略的全域結構。本專案以 TDA 為核心,結合 TCGA-LAML 與 BeatAML 兩大公開資料庫,建立可重現的 AML 轉錄體風險分層管線。
#
Methods(方法)
管線以 Python 為主要語言,採用如 giotto-tda、kmapper 等套件。資料整合階段先標準化兩資料集的基因表現量並調整批次效應,再以共同基因集為輸入計算 Mapper 圖;節點上的子群以下游分析(生存、突變共現)描繪其臨床意義。Persistent homology 則用於量化不同特徵子集所攜帶的全域形狀資訊。
模型輸出為個體層級的拓樸位置(topological coordinates),可作為下游 Cox 模型或機器學習分類器的輸入。整體流程嚴格保留可重現性,所有資料來源版本與分析腳本皆紀錄於 Git。
#
Results(結果)
初步結果顯示 TDA 能識別不被既有 ELN 風險分層完全捕捉的子群,且部分子群在兩資料庫間具一致的預後表現。對於臨床醫師而言,此一方法提供傳統分子分類之外的補充視角;對於方法學研究者,本管線可作為將 TDA 應用於其他血液惡性腫瘤的範本。
#
Discussion(討論)
本專案突顯了拓樸方法在生物資訊學的潛力:當問題的關鍵在於「整體形狀」而非單一特徵時,TDA 是值得納入的工具。限制方面,Mapper 結果受參數選擇影響顯著,需謹慎調校;TDA 的可解釋性對非專業讀者仍不直觀。未來可加入單細胞 AML 資料集,並結合 LLM 對拓樸結果產出可被臨床醫師理解的敘事化摘要。
#
連結
- GitHub:htlin222/topological-stratification-aml
- 主要語言:Python
- 最後更新:2026-04-18