agentic-holdem：以德州撲克為示範的多 Agent Claude Code 編排框架

2026-05-09

/blog/agentic-holdem-2026-05-09/ 林協霆

Table of Contents

# Introduction（引言）

多 Agent 系統已成為 AI 工程的關鍵研究方向，但多數討論仍停留在抽象架構或工作流圖示，缺乏直觀的場域可供觀察其行為。德州撲克因其資訊不完全、需要心理博弈、且具備明確賽制與輪次規則，是檢驗多 Agent 推理、決策與互動的理想實驗場。本專案以撲克為載體，建構一個可觀察 Agent 行為的最小編排框架。

研究問題在於：當 N 個獨立、不共享內部狀態的 LLM Agent 必須在同一個遊戲狀態之下競爭時，如何確保每個 Agent 僅能取得其應該知道的資訊（手牌、籌碼、歷史下注），並讓整體系統的推理過程可被外部觀察與審計。

# Methods（方法）

框架以 TypeScript 撰寫，並深度整合 Claude Code 作為 Agent 後端。每個 Agent 為獨立進程或對話 session，遊戲狀態以中央化資料結構維護，並透過明確的訊息協定向各 Agent 廣播其視角下的狀態切片。Agent 的決策過程（包含思考鏈）會被結構化記錄，產生可重播、可分析的牌局逐手紀錄。

設計重點包括：嚴格的資訊隔離（避免 Agent 跨界讀取他人手牌）、可插拔的決策策略、以及將 LLM 的不確定性轉化為可分析的訊號。整體架構接近 actor model，便於後續擴充至其他多 Agent 場景，例如臨床決策模擬或多科會診。

# Results（結果）

目前實作可支援多個 AI Agent 同桌進行德州撲克，並完整輸出每位 Agent 的內部推理。研究者得以觀察 LLM 在面對虛張聲勢、跟注、加注等情境下的決策模式，並在不同模型版本之間比較其風險偏好與穩定性。框架本身與遊戲規則弱耦合，撲克僅是初始示範，可被替換為其他規則性博弈。

# Discussion（討論）

本專案的價值不在於打造強撲克 AI，而在於以撲克為「可控的多 Agent 觀測平台」，使我們能以較低成本研究 LLM 的協作與對抗行為。限制方面，目前的決策完全依賴 LLM 即時推理，缺乏 Monte Carlo 等傳統博弈論優化；資訊隔離雖然嚴格，但 LLM 在多回合下仍可能因 prompt 工程不慎而洩漏線索。未來可擴充為臨床多科決策模擬，例如多位 LLM 分別扮演主治醫師、住院醫師與藥師，於同一虛擬病案中協作。

# 連結

GitHub：htlin222/agentic-holdem
主要語言：TypeScript
最後更新：2026-05-09

林協霆醫師