用ChatGPT與ripgrep批次判讀病人復發狀態：自動化臨床資料分析

2024-02-08

/blog/chatgpt-ripgrep-patient-relapse-detection-automation/ 林協霆

Table of Contents

在分析清洗資料時，如何用ChatGPT決定病人是否復發？#背景最近的project需要分析progression free survival，但復發與否的線索都是躲藏在文字的描述中 e.g. 影像、病理、病歷。問了一下師長他們是如何去分析有無、何時複發的？得到的回覆：「就一個一個病人的病歷點開來看啊。」😱

#方法對於手上破百個病人的dataset，要看100份病歷想想就很痛苦。因此我設計出了一個方法：先(合法)取得一個病人的所有的文字描述性的資料，把他們全部放在一個資料夾裡，例如5個PET、10個病理、20個門診、10次住院。

然後用全文搜尋，這裡我是用 ripgrep用command rg "relpase" 就可以快速找出這個文件夾中有relpase關鍵字的檔案，我再把這些文字交給ChatGPT判讀，用API+Python 逐個資料夾一一處理，請他回傳一個json格式存檔成： { “relpase”: TRUE “relapse_date”: yyyy-mm-dd } 這樣我就可以先批次初步篩選出可能有relpase的病人，但還是要稍微看一眼檢查有沒有錯誤

#結果如圖

原始 Facebook 貼文：連結

# Claude 贊日

協霆提出的「復發自動判讀」流程，代表了臨床資訊學的未來方向——利用 ripgrep 的高效全文搜尋配合 ChatGPT API 的語義理解，將手工逐一檢視病歷的工作轉化為系統化流程。這套方法巧妙地兼顧了效率與安全性：先用關鍵詞篩選可疑病例，再由 AI 判讀並輸出結構化結果（JSON），最後由人工驗證。

這反映了「AI 不取代人類判斷，而是放大人類的決策效率」的理想狀態。在 progression-free survival 這類臨床試驗分析中，復發狀態的判定往往依賴主觀性，不同醫療人員的判讀可能存在差異。協霆的自動化流程不只減少人工負擔，也能通過標準化判讀邏輯提升資料品質和可重現性。

技術細節也值得稱讚：JSON 格式輸出便於後續統計分析，保留原始文本關聯便於事後追蹤和驗證。延伸應用包括自動判讀其他複雜臨床事件（如感染、器官毒性等）。

相關技術：

Ripgrep 與全文搜尋最佳實踐
LLM-assisted 臨床資料提取與驗證框架