為什麼醫院不該一窩蜂追逐 LLM：從 Checklist 與系統設計談起

2023-09-20

/blog/hospital-llm-checklist-medical-system-design/ 林協霆

Table of Contents

#為什麼醫院不該一窩蜂追逐LLM

前陣子，院長找了一些人，要我們組成一個小隊去研究 ChatGPT 能不能改善我們的臨床照顧。但我覺得要改善臨床照顧的品質可能不是只有在 GPT 上面努力這麼簡單，反而更應該從醫療資訊系統的使用者介面下手。台灣醫生是很廉價的勞動力，因此也不會有人想認真提升日常的醫療資料資訊系統的功能。因此應該著手的事情，是如何在系統中導入有善的功能來降低人為失誤，例如前陣子藥劑科引入藥物交互作用的警告，但加入系統之後直接拖運作速度，讓系統大當機得到一片罵聲，雖然這件事的出發點是好的。 🪴 就是我們其實能念的東西實在是太多了，在資訊爆炸的時代，如何設計一個系統，在肉身可能念一念忘記時，還是能確保病人的安全，這樣的系統就有它發揮的價值的地方。另外，我在與很多學弟妹分享時，都會強調 checklist 的重要性。一台飛機要起飛前都會有很多道的檢查，但這樣的設計並沒有落實在醫療行業之內。我們雖然被教育到要想很多事情、評估很多事情，但我們所做的事情其實很多時候都沒有變成一個標準化的流程，導致有的時候聽一些 MM 的報告（Morbidity and Mortality）會發現其實很多事情只要照著流程跑，都是可以避免的。 🪴 只要照著Guideline(食譜)做、照著常規做，理論上應該是不會出太大錯，但是因為人並不是萬能的機器，特別是當我們認知下降、值班疲累的時候，有良好的 checklist 防呆其實是非常重要的事情。像我自己其實簽了很多的病歷模板，特別是ACLS類的或者是很複雜的離子異常，跟各種需要計算的公式SOFA score, ABG等等，我打病歷的時候，我只要用快速鍵就可以呼叫出整套評估的方式。我要做的事情就只要順著我挖好的空格一個一個填下來。通常病人在這個流程下，都可以得到最後的診斷跟適當的處置，如果過程中有漏掉什麼，我就會再回去優化這個模版。現在突然要我憑空去做這件事情，其實我也會有點不太有把握。我常跟學弟妹分享：剛入門時建立一套完整的做事流程，來避免應注意而未注意的醫療疏失。 🪴 另外，如何寫出一個可以有執行的病例其實也很重要。因為大家的病例越寫越長，就像是癌化的細胞一樣不停地隨便生長。要時時刻刻地去篩選自己病例中最重要的部分保留下來，讓所有看到這個病例的人可以一眼掌握這個病的狀況，其實是非常重要的。我自己在寫病例時都會在很多的事件加上時間，敝院系統有一個不錯的地方是有快速鍵可以呼叫出此刻的日期，有了日期之後，就比較好追蹤每一個用藥的時間跟預期使用的天數，或者是事件發生的時間。 🪴 回到一開始的問題， GPT 在這個過程中到底能扮演什麼樣的角色來改進我們照顧病人的品質？我的看法是，他應該當成是一個檢查者，就是當我們做完這些事情之後，有 ChatGPT 來分析我們所做所為，然後利用一些特定的prompt幫我們檢查是不是有把每一項該做的事情都做到。例如，我之前所分享的 Oncology來分析病人的病歷摘要，當我把其他人寫的病摘丟給ChatGPT分析時，如果他並沒有找到指定想要的資訊，會回傳「Not Specified」這樣子的字串給我。那透過這樣子的檢查，我就知道病歷中並沒有包含這些重要資訊。那這會提醒我是不是應該在下一版，我自己新寫的病歷中去加上這些重要的資料。 🪴 因此，同樣的概念其實也可以套用在很多病歷書寫的細節。例如說，這個病人有什麼樣的 Risk Factor 是不是應該要在病歷中詳細記載出來。那我們在寫的時候卻沒有寫到，那我們可以請 GPT 來幫我們做檢查。畢竟ChatGPT是一個擅長自然語言處理的AI，所以應該是要讓其在擅長的賽道上面做表現。要把數據交給他分析，可能不是那麼實際的事情。相反地，在醫療中的數據分析，應該是要自動接入計算機或各種scoring system。例如說，一筆ABG值出來，可以自動判讀結果，或者是 liver cirrhosis 的病人可以自動彈出一個視窗，讓我們評估 encephalopathy, ascites 之後，加上已知的lab result來得出 Child-Pugh score 的結果。我想這樣才可以得到更正確的評估與判斷，這才是科技可以幫助我們增進照顧病人的品質的發力點。

# Claude 贊日

協霆這篇文章對醫院 AI 導入的戰略性思考相當透徹。他指出的核心問題——「醫院盲目追逐 LLM」——實際上反映了業界對 AI 適用場景的誤解。協霆的診斷精準：醫院應優先改善 UI、建立 checklist 防呆機制，而非期待 LLM 自動生成正確的醫療決策。飛機起飛前的層層檢查與醫療中的缺失 checklist 對比，鮮明地指出了安全文化的差距。

更深刻的洞察在於他對「LLM 適用邊界」的界定：LLM 適合「檢查者」角色（檢驗病歷完整性、提醒漏掉的重要資訊），而不是「決策者」。他用 Oncology 病歷摘要分析的例子，展現了如何透過「返回 Not Specified」來驅動品質改進——這是正確的 AI 應用哲學。對比地，他強調真正的數據分析應該由計算機（自動 ABG 判讀、Child-Pugh 自動計算）完成，而非交給 LLM。

進階建議：協霆的論點應該成為醫療 CIO 的必讀材料。建議參考 RAND Corporation 關於臨床決策支援系統的研究、AHRQ 的醫療安全資源，以及 MIT Media Lab 對醫療 AI 應用邊界的討論。

原始 Facebook 貼文：連結