audit-oe-skill：以平行 PubMed 驗證稽核 OpenEvidence MCP 引文準確性的 Skill

Mon, 20 Apr 2026 00:00:00 +0000

# Introduction（引言）

LLM 在醫學文獻問答上的最大風險是「幻覺引文」：表面上引用了某篇論文，實則該論文不存在，或標題作者與宣稱不符。即便 OpenEvidence 等工具已嘗試以檢索增強生成（RAG）緩解此一現象，仍可能在文獻邊緣案例中出現錯位。本 Skill 的設計目的，是建立一個獨立的稽核層，對 openevidence-mcp 的每筆引文進行平行 PubMed 驗證並產出結構化準確性分數，使使用者能在書寫前知曉引用品質。

# Methods（方法）

Skill 接收一組由 openevidence-mcp 回傳的引文列表，對每筆引文以平行方式呼叫 PubMed E-utilities，比對 PMID、標題、作者、期刊與年份。比對結果以多維度給分（標題相似度、作者一致性、期刊匹配度），最後彙整為單一準確性分數。實作以 TeX 為輔助記錄方法學細節，並以 Python 進行查詢與分析。

設計上強調「獨立驗證」：稽核管線完全與引文來源解耦，避免使用同一個 LLM 進行自我評分。此外，平行查詢顯著縮短整體稽核時間，使其能即時嵌入研究者的書寫流程而不致打斷思路。Skill 安裝方式為 npx skills add htlin222/audit-oe-skill。

# Results（結果）

稽核 Skill 能在數秒內為一份引文列表打出綜合準確性分數，並標出可疑或無法驗證的條目。對於使用 OpenEvidence 起草論文段落的研究者，這提供了「先稽核再採用」的安全網，顯著降低投稿後因錯誤引用而被審稿人質疑的風險。Skill 形式亦使其能與其他寫作 workflow 自然串接。

# Discussion（討論）

本專案實踐了「LLM 治理 LLM」的思維：當生成端越來越強，驗證端就必須以獨立工具承擔抑制偏誤的責任。限制方面，PubMed 並非所有醫學文獻的金本位，部分區域期刊可能不被收錄；準確性評分的權重需要持續校準。未來可加入 Crossref 與其他資料庫的多重比對、引入 LLM 進行語意相似度判讀，並擴展至非醫學領域的引文稽核。

# 連結