audit-oe-skill:以平行 PubMed 驗證稽核 OpenEvidence MCP 引文準確性的 Skill
Table of Contents
#
Introduction(引言)
LLM 在醫學文獻問答上的最大風險是「幻覺引文」:表面上引用了某篇論文,實則該論文不存在,或標題作者與宣稱不符。即便 OpenEvidence 等工具已嘗試以檢索增強生成(RAG)緩解此一現象,仍可能在文獻邊緣案例中出現錯位。本 Skill 的設計目的,是建立一個獨立的稽核層,對 openevidence-mcp 的每筆引文進行平行 PubMed 驗證並產出結構化準確性分數,使使用者能在書寫前知曉引用品質。
#
Methods(方法)
Skill 接收一組由 openevidence-mcp 回傳的引文列表,對每筆引文以平行方式呼叫 PubMed E-utilities,比對 PMID、標題、作者、期刊與年份。比對結果以多維度給分(標題相似度、作者一致性、期刊匹配度),最後彙整為單一準確性分數。實作以 TeX 為輔助記錄方法學細節,並以 Python 進行查詢與分析。
設計上強調「獨立驗證」:稽核管線完全與引文來源解耦,避免使用同一個 LLM 進行自我評分。此外,平行查詢顯著縮短整體稽核時間,使其能即時嵌入研究者的書寫流程而不致打斷思路。Skill 安裝方式為 npx skills add htlin222/audit-oe-skill。
#
Results(結果)
稽核 Skill 能在數秒內為一份引文列表打出綜合準確性分數,並標出可疑或無法驗證的條目。對於使用 OpenEvidence 起草論文段落的研究者,這提供了「先稽核再採用」的安全網,顯著降低投稿後因錯誤引用而被審稿人質疑的風險。Skill 形式亦使其能與其他寫作 workflow 自然串接。
#
Discussion(討論)
本專案實踐了「LLM 治理 LLM」的思維:當生成端越來越強,驗證端就必須以獨立工具承擔抑制偏誤的責任。限制方面,PubMed 並非所有醫學文獻的金本位,部分區域期刊可能不被收錄;準確性評分的權重需要持續校準。未來可加入 Crossref 與其他資料庫的多重比對、引入 LLM 進行語意相似度判讀,並擴展至非醫學領域的引文稽核。
#
連結
- GitHub:htlin222/audit-oe-skill
- 主要語言:TeX
- 最後更新:2026-04-20