tcga-brca-reanalysis：以 Venet 2011 範式重新檢驗乳癌機轉導向基因標記的預後價值

2026-04-24

/blog/tcga-brca-reanalysis-2026-04-24/ 林協霆

Table of Contents

# Introduction（引言）

Venet 等人於 2011 年指出，乳癌中許多被宣稱具有預後意義的基因標記，其表現甚至不優於以「隨機抽取相同大小基因集」為對照的虛擬標記。此一觀察動搖了多項分子分類器的價值，但相關範式並未被廣泛複製檢驗。本專案在 TCGA-BRCA 上重複並擴充此一比較，並進一步以 METABRIC 與 SCAN-B 兩個獨立資料集驗證，並做 meta-PCNA（增殖相關基因）校正以排除增殖訊號的干擾。

# Methods（方法）

研究蒐集已發表、宣稱具備生物機轉解釋的乳癌預後基因標記集合，於 TCGA-BRCA 中以 Cox 比例風險迴歸評估其與整體存活的關聯。對照組為等量隨機基因集（重複多輪取得分布），比較目標標記是否顯著優於隨機集。為控制乳癌族群中強烈的增殖訊號，採用 meta-PCNA 校正，將每個標記的訊號扣除增殖共線性後再評估。最後將同樣分析套用至 METABRIC 與 SCAN-B，檢驗結果在不同資料集間的穩定性。

整體實作以 Python 為主，利用其在生物資訊與統計計算上的成熟生態，並嚴格紀錄資料前處理、標記定義與隨機種子，確保可重現性。

# Results（結果）

初步分析顯示，相當比例的「機轉導向」標記在隨機基因集對照下並未展現顯著優勢，且在 meta-PCNA 校正後其顯著性進一步下降。跨資料集驗證亦顯示部分標記僅在 TCGA 中具關聯，於 METABRIC 與 SCAN-B 並不穩定。此結果延伸並更新 Venet 2011 的觀察，提供當代乳癌分子分類研究的反思素材。

# Discussion（討論）

本專案提醒研究社群：在處理高維表現數據時，「比隨機好」應為基本門檻而非高標準。其貢獻在於建立可被重複的基準，使後續新標記能被同樣的方法檢驗。限制方面，原始論文的標記定義可能不完整，且不同資料集的處理流程仍可能引入偏誤。未來可擴充至其他癌症類型，並結合機器學習模型公平比較。

# 連結

GitHub：htlin222/tcga-brca-reanalysis
主要語言：Python
最後更新：2026-04-24

林協霆醫師