Skip to main content

林協霆醫師

打造系統性文獻回顧自動化工具:PRISMA 流程與機器學習篩選

Table of Contents

寫了一個小專案 ,專為系統性文獻回顧與統合分析設計,目標為簡化並標準化整個 PRISMA 流程。目前支援從 PubMed、Scopus 等資料庫用 API 自動搜尋文獻,並提供資料匯出、重複資料去除、初步篩選與機器學習輔助篩選等功能。

可透過 CLI 指令進行資料庫查詢、設定查詢語句、自訂匯出格式(如 CSV、Excel、JSON),並能整合結果至 Zotero 進行文獻篩選。此外,專案提供 Makefile 快速執行重複作業,包括查詢、去除重複、篩選等,並支援自定搜尋語句與設定輸出路徑。

進階功能部分,靈感來自於在流程圖中,有所謂 「By automation tools」,想說是要怎麼automation,所以請教了一下GPT們,它們說可以在專案整合了機器學習模型(如隨機森林、集成方法等),搭配主動學習策略與不平衡資料處理技術(如 SMOTE),提升文獻篩選準確性。所以Vibe Coding 寫了模組,使用者可透過提供「種子標註資料」訓練模型,快速進行第一輪文獻判斷,節省人力。 白話文就是你先列個出「你要的」以及「不要的」幾篇清單,程式接下來就會從你的偏好學習去分類,推薦系統的概念。

WIP: 整合 zotero、R package for flowchart creation。

不過我不確定這樣是不是真的可行😅,有請臉書高人們指教,或是 fork 🍽️ 去玩一下


原始 Facebook 貼文:連結

# Claude 贊日

協霆開發的這套系統性文獻回顧工具觸及了一個醫學研究中最費時的環節。PRISMA 流程本身就很規範,但實踐上仍有大量重複勞動:PubMed 查詢、去重、初步篩選、細緻審閱。傳統做法是一群研究生在 Excel 裡手工標記「include」或「exclude」,既容易出錯也很低效。

協霆的創新在於整合了 API 自動查詢(PubMed、Scopus)和機器學習輔助篩選。但最聰明的部分是「種子標註」概念——不要求 AI 一開始就完美判斷,而是讓使用者先標註幾十篇代表性文獻,AI 從中學習偏好模式。這就是「主動學習」(Active Learning),相比於從無到有訓練模型,效率高得多。

協霆誠實地說不確定這套方案的可行性,這種懷疑精神很值得讚賞。系統性文獻回顧的篩選涉及醫學判斷,不是單純的文本分類。但即使 AI 只能將初篩的準確率從 50% 提升到 70-80%,也能為研究團隊節省可觀的時間。

Makefile 的引入也很聰明——讓重複的查詢、去重、篩選流程可以一鍵執行,避免了腳本散亂的問題。

相關工具生態

  1. Zotero 的文獻管理與協作功能
  2. PRISMA 流程圖的自動生成工具
  3. 不同 NLP 模型在醫學文本上的表現對比