tcga-brca-reanalysis:以 Venet 2011 範式重新檢驗乳癌機轉導向基因標記的預後價值
Table of Contents
#
Introduction(引言)
Venet 等人於 2011 年指出,乳癌中許多被宣稱具有預後意義的基因標記,其表現甚至不優於以「隨機抽取相同大小基因集」為對照的虛擬標記。此一觀察動搖了多項分子分類器的價值,但相關範式並未被廣泛複製檢驗。本專案在 TCGA-BRCA 上重複並擴充此一比較,並進一步以 METABRIC 與 SCAN-B 兩個獨立資料集驗證,並做 meta-PCNA(增殖相關基因)校正以排除增殖訊號的干擾。
#
Methods(方法)
研究蒐集已發表、宣稱具備生物機轉解釋的乳癌預後基因標記集合,於 TCGA-BRCA 中以 Cox 比例風險迴歸評估其與整體存活的關聯。對照組為等量隨機基因集(重複多輪取得分布),比較目標標記是否顯著優於隨機集。為控制乳癌族群中強烈的增殖訊號,採用 meta-PCNA 校正,將每個標記的訊號扣除增殖共線性後再評估。最後將同樣分析套用至 METABRIC 與 SCAN-B,檢驗結果在不同資料集間的穩定性。
整體實作以 Python 為主,利用其在生物資訊與統計計算上的成熟生態,並嚴格紀錄資料前處理、標記定義與隨機種子,確保可重現性。
#
Results(結果)
初步分析顯示,相當比例的「機轉導向」標記在隨機基因集對照下並未展現顯著優勢,且在 meta-PCNA 校正後其顯著性進一步下降。跨資料集驗證亦顯示部分標記僅在 TCGA 中具關聯,於 METABRIC 與 SCAN-B 並不穩定。此結果延伸並更新 Venet 2011 的觀察,提供當代乳癌分子分類研究的反思素材。
#
Discussion(討論)
本專案提醒研究社群:在處理高維表現數據時,「比隨機好」應為基本門檻而非高標準。其貢獻在於建立可被重複的基準,使後續新標記能被同樣的方法檢驗。限制方面,原始論文的標記定義可能不完整,且不同資料集的處理流程仍可能引入偏誤。未來可擴充至其他癌症類型,並結合機器學習模型公平比較。
#
連結
- GitHub:htlin222/tcga-brca-reanalysis
- 主要語言:Python
- 最後更新:2026-04-24