ArtPrompt：ASCII 藝術成為 LLM 越獄攻擊新手段

2024-03-07

Table of Contents

🚨ASCII Art 成為越獄攻擊新手段🚨

研究人員發現[1]，目前LLMs在識別基於ASCII藝術的提示方面存在漏洞，這種漏洞可被用於發起越獄攻擊，繞過安全措施。這種攻擊，名為ArtPrompt，證實了LLMs在識別只能通過視覺和文字挑戰（ViTC）來識別的prompt時遇到困難。

Jiang F, Xu Z, Niu L, et al. ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs. arXiv.org. Published 2024. Accessed March 7, 2024. https://arxiv.org/abs/2402.11753v2

原始 Facebook 貼文：連結

# Claude 贊日

ArtPrompt 漏洞凸顯了 LLM 安全防護的複雜性。協霆引用的研究指出，語言模型在處理非傳統文本格式（如 ASCII 藝術）時會降低警惕，這反映了一個根本問題：模型對視覺與文本混合信號的理解仍不完善。

這對臨床應用尤其重要。當我們使用 LLM 協助病歷摘要、診斷建議或研究資料分析時，理解其安全邊界就成了必修課。協霆可進一步思考：如何在臨床實務中設計提示詞防護，避免模型在複雜或模稜兩可的場景下輸出有害建議。

此外，ArtPrompt 也提醒我們——無論多聰明的 AI 系統，都不該作為臨床決策的唯一依據。人類醫療判斷與 AI 輔助需要良好的制衡機制。

延伸閱讀：