為什麼醫院不該一窩蜂追逐 LLM:從 Checklist 與系統設計談起
Table of Contents
#為什麼醫院不該一窩蜂追逐LLM
前陣子,院長找了一些人,要我們組成一個小隊去研究 ChatGPT 能不能改善我們的臨床照顧。但我覺得要改善臨床照顧的品質可能不是只有在 GPT 上面努力這麼簡單,反而更應該從醫療資訊系統的使用者介面下手。台灣醫生是很廉價的勞動力,因此也不會有人想認真提升日常的醫療資料資訊系統的功能。因此應該著手的事情,是如何在系統中導入有善的功能來降低人為失誤,例如前陣子藥劑科引入藥物交互作用的警告,但加入系統之後直接拖運作速度,讓系統大當機得到一片罵聲,雖然這件事的出發點是好的。 🪴 就是我們其實能念的東西實在是太多了,在資訊爆炸的時代,如何設計一個系統,在肉身可能念一念忘記時,還是能確保病人的安全,這樣的系統就有它發揮的價值的地方。另外,我在與很多學弟妹分享時,都會強調 checklist 的重要性。一台飛機要起飛前都會有很多道的檢查,但這樣的設計並沒有落實在醫療行業之內。我們雖然被教育到要想很多事情、評估很多事情,但我們所做的事情其實很多時候都沒有變成一個標準化的流程,導致有的時候聽一些 MM 的報告(Morbidity and Mortality)會發現其實很多事情只要照著流程跑,都是可以避免的。 🪴 只要照著Guideline(食譜)做、照著常規做,理論上應該是不會出太大錯,但是因為人並不是萬能的機器,特別是當我們認知下降、值班疲累的時候,有良好的 checklist 防呆其實是非常重要的事情。像我自己其實簽了很多的病歷模板,特別是ACLS類的或者是很複雜的離子異常,跟各種需要計算的公式SOFA score, ABG等等,我打病歷的時候,我只要用快速鍵就可以呼叫出整套評估的方式。我要做的事情就只要順著我挖好的空格一個一個填下來。通常病人在這個流程下,都可以得到最後的診斷跟適當的處置,如果過程中有漏掉什麼,我就會再回去優化這個模版。現在突然要我憑空去做這件事情,其實我也會有點不太有把握。我常跟學弟妹分享:剛入門時建立一套完整的做事流程,來避免應注意而未注意的醫療疏失。 🪴 另外,如何寫出一個可以有執行的病例其實也很重要。因為大家的病例越寫越長,就像是癌化的細胞一樣不停地隨便生長。要時時刻刻地去篩選自己病例中最重要的部分保留下來,讓所有看到這個病例的人可以一眼掌握這個病的狀況,其實是非常重要的。我自己在寫病例時都會在很多的事件加上時間,敝院系統有一個不錯的地方是有快速鍵可以呼叫出此刻的日期,有了日期之後,就比較好追蹤每一個用藥的時間跟預期使用的天數,或者是事件發生的時間。 🪴 回到一開始的問題, GPT 在這個過程中到底能扮演什麼樣的角色來改進我們照顧病人的品質?我的看法是,他應該當成是一個檢查者,就是當我們做完這些事情之後,有 ChatGPT 來分析我們所做所為,然後利用一些特定的prompt幫我們檢查是不是有把每一項該做的事情都做到。例如,我之前所分享的 Oncology來分析病人的病歷摘要,當我把其他人寫的病摘丟給ChatGPT分析時,如果他並沒有找到指定想要的資訊,會回傳「Not Specified」這樣子的字串給我。那透過這樣子的檢查,我就知道病歷中並沒有包含這些重要資訊。那這會提醒我是不是應該在下一版,我自己新寫的病歷中去加上這些重要的資料。 🪴 因此,同樣的概念其實也可以套用在很多病歷書寫的細節。例如說,這個病人有什麼樣的 Risk Factor 是不是應該要在病歷中詳細記載出來。那我們在寫的時候卻沒有寫到,那我們可以請 GPT 來幫我們做檢查。畢竟ChatGPT是一個擅長自然語言處理的AI,所以應該是要讓其在擅長的賽道上面做表現。要把數據交給他分析,可能不是那麼實際的事情。相反地,在醫療中的數據分析,應該是要自動接入計算機或各種scoring system。例如說,一筆ABG值出來,可以自動判讀結果,或者是 liver cirrhosis 的病人可以自動彈出一個視窗,讓我們評估 encephalopathy, ascites 之後,加上已知的lab result來得出 Child-Pugh score 的結果。我想這樣才可以得到更正確的評估與判斷,這才是科技可以幫助我們增進照顧病人的品質的發力點。
#
Claude 贊日
協霆這篇文章對醫院 AI 導入的戰略性思考相當透徹。他指出的核心問題——「醫院盲目追逐 LLM」——實際上反映了業界對 AI 適用場景的誤解。協霆的診斷精準:醫院應優先改善 UI、建立 checklist 防呆機制,而非期待 LLM 自動生成正確的醫療決策。飛機起飛前的層層檢查與醫療中的缺失 checklist 對比,鮮明地指出了安全文化的差距。
更深刻的洞察在於他對「LLM 適用邊界」的界定:LLM 適合「檢查者」角色(檢驗病歷完整性、提醒漏掉的重要資訊),而不是「決策者」。他用 Oncology 病歷摘要分析的例子,展現了如何透過「返回 Not Specified」來驅動品質改進——這是正確的 AI 應用哲學。對比地,他強調真正的數據分析應該由計算機(自動 ABG 判讀、Child-Pugh 自動計算)完成,而非交給 LLM。
進階建議:協霆的論點應該成為醫療 CIO 的必讀材料。建議參考 RAND Corporation 關於臨床決策支援系統的研究、AHRQ 的醫療安全資源,以及 MIT Media Lab 對醫療 AI 應用邊界的討論。
原始 Facebook 貼文:連結