<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:webfeeds="http://webfeeds.org/rss/1.0"><channel><title>benchmark on 林協霆醫師</title><link>/tags/benchmark/</link><description>林協霆醫師 (benchmark)</description><generator>Hugo -- gohugo.io</generator><language>zh-tw</language><image><url>https://htl.physician.tw/favicon-32x32.png</url><title>林協霆醫師</title><link>https://htl.physician.tw/</link><width>32</width><height>32</height></image><webfeeds:icon>https://htl.physician.tw/favicon-32x32.png</webfeeds:icon><webfeeds:logo>https://htl.physician.tw/android-chrome-512x512.png</webfeeds:logo><webfeeds:accentColor>5bbad5</webfeeds:accentColor><lastBuildDate>Sat, 25 Apr 2026 00:00:00 +0000</lastBuildDate><atom:link href="/tags/benchmark/index.xml" rel="self" type="application/rss+xml"/><item><title>ngs-tertiary-analysis-paper：以 Agentic AI 對照 AMP/ASCO/CAP 規則式分類的 NGS 證據調和方法論</title><link>/blog/ngs-tertiary-analysis-paper-2026-04-25/</link><pubDate>Sat, 25 Apr 2026 00:00:00 +0000</pubDate><guid>/blog/ngs-tertiary-analysis-paper-2026-04-25/</guid><description>&lt;h2 id="introduction引言" >
&lt;div>
&lt;a href="#introduction%e5%bc%95%e8%a8%80">
#
&lt;/a>
Introduction（引言）
&lt;/div>
&lt;/h2>
&lt;p>癌症次世代定序的變異臨床意義評估目前主要依循 AMP／ASCO／CAP 共識指引：將變異依證據強度分為 Tier I 至 Tier IV，提供臨床決策依據。然而此規則式分類仰賴專家逐筆比對文獻、藥物資料庫與功能研究，工作量極高且易因資料庫更新而落後。隨著大型語言模型展現出整合多源文本的能力，是否能以 Agentic AI 動態調和臨床證據成為值得驗證的方法論問題。本專案即為相關投稿手稿之研究與寫作倉庫。&lt;/p>
&lt;h2 id="methods方法" >
&lt;div>
&lt;a href="#methods%e6%96%b9%e6%b3%95">
#
&lt;/a>
Methods（方法）
&lt;/div>
&lt;/h2>
&lt;p>本研究採用 Agentic AI 架構：每筆變異由協調 Agent 接收後，分派給多個專門 Agent 分別查詢文獻、藥物適應症、功能研究與臨床指引，最終由仲裁 Agent 彙整證據並輸出建議分類。系統以 R 語言撰寫主要分析管線，呼叫 LLM API 並嚴格紀錄每一步證據來源。基準對照為人工依 AMP／ASCO/CAP 指引產出的 Tier 分類，使用一組標註過的癌症 NGS 變異資料集進行比較。&lt;/p>
&lt;p>評估指標包含一致率、敏感度／特異度與分類差異的根因分析；同時記錄 Agentic 流程的 token 用量、執行時間與失敗模式，作為實務部署的參考。&lt;/p>
&lt;h2 id="results結果" >
&lt;div>
&lt;a href="#results%e7%b5%90%e6%9e%9c">
#
&lt;/a>
Results（結果）
&lt;/div>
&lt;/h2>
&lt;p>初步結果顯示 Agentic AI 在多數高證據變異上能達到與人工相當的一致率，但於罕見變異與證據邊界情境下出現分類飄移。仔細分析顯示，誤分類常源於文獻檢索 Agent 對近期摘要的解讀不夠精確，提示後續可加入人類在環（human-in-the-loop）審核。&lt;/p>
&lt;h2 id="discussion討論" >
&lt;div>
&lt;a href="#discussion%e8%a8%8e%e8%ab%96">
#
&lt;/a>
Discussion（討論）
&lt;/div>
&lt;/h2>
&lt;p>本研究展示 Agentic AI 在臨床基因體學的實質潛力：不只是文字生成，更能負擔結構化證據蒐集任務。其貢獻在於提供可重複的方法論模板與基準測試流程，而非主張取代人工。限制方面，研究使用單一資料庫快照與單一 LLM 家族，泛化能力需更多驗證。未來方向包括：跨模型比較、多機構資料集驗證，以及將 Agentic 評估嵌入既有臨床報告平台的接口設計。&lt;/p>
&lt;h2 id="連結" >
&lt;div>
&lt;a href="#%e9%80%a3%e7%b5%90">
#
&lt;/a>
連結
&lt;/div>
&lt;/h2>
&lt;ul>
&lt;li>GitHub：&lt;a href="https://github.com/htlin222/ngs-tertiary-analysis-paper">htlin222/ngs-tertiary-analysis-paper&lt;/a>&lt;/li>
&lt;li>主要語言：R&lt;/li>
&lt;li>最後更新：2026-04-25&lt;/li>
&lt;/ul></description></item></channel></rss>