agentic-holdem:以德州撲克為示範的多 Agent Claude Code 編排框架
Table of Contents
#
Introduction(引言)
多 Agent 系統已成為 AI 工程的關鍵研究方向,但多數討論仍停留在抽象架構或工作流圖示,缺乏直觀的場域可供觀察其行為。德州撲克因其資訊不完全、需要心理博弈、且具備明確賽制與輪次規則,是檢驗多 Agent 推理、決策與互動的理想實驗場。本專案以撲克為載體,建構一個可觀察 Agent 行為的最小編排框架。
研究問題在於:當 N 個獨立、不共享內部狀態的 LLM Agent 必須在同一個遊戲狀態之下競爭時,如何確保每個 Agent 僅能取得其應該知道的資訊(手牌、籌碼、歷史下注),並讓整體系統的推理過程可被外部觀察與審計。
#
Methods(方法)
框架以 TypeScript 撰寫,並深度整合 Claude Code 作為 Agent 後端。每個 Agent 為獨立進程或對話 session,遊戲狀態以中央化資料結構維護,並透過明確的訊息協定向各 Agent 廣播其視角下的狀態切片。Agent 的決策過程(包含思考鏈)會被結構化記錄,產生可重播、可分析的牌局逐手紀錄。
設計重點包括:嚴格的資訊隔離(避免 Agent 跨界讀取他人手牌)、可插拔的決策策略、以及將 LLM 的不確定性轉化為可分析的訊號。整體架構接近 actor model,便於後續擴充至其他多 Agent 場景,例如臨床決策模擬或多科會診。
#
Results(結果)
目前實作可支援多個 AI Agent 同桌進行德州撲克,並完整輸出每位 Agent 的內部推理。研究者得以觀察 LLM 在面對虛張聲勢、跟注、加注等情境下的決策模式,並在不同模型版本之間比較其風險偏好與穩定性。框架本身與遊戲規則弱耦合,撲克僅是初始示範,可被替換為其他規則性博弈。
#
Discussion(討論)
本專案的價值不在於打造強撲克 AI,而在於以撲克為「可控的多 Agent 觀測平台」,使我們能以較低成本研究 LLM 的協作與對抗行為。限制方面,目前的決策完全依賴 LLM 即時推理,缺乏 Monte Carlo 等傳統博弈論優化;資訊隔離雖然嚴格,但 LLM 在多回合下仍可能因 prompt 工程不慎而洩漏線索。未來可擴充為臨床多科決策模擬,例如多位 LLM 分別扮演主治醫師、住院醫師與藥師,於同一虛擬病案中協作。
#
連結
- GitHub:htlin222/agentic-holdem
- 主要語言:TypeScript
- 最後更新:2026-05-09