ChatGPT 沒有盜用文章：從文字接龍原理破解迷思

2023-02-26

/blog/chatgpt-text-prediction-not-stealing-articles/ 林協霆

Table of Contents

【OpenAI 吃人夠夠？無償盜用媒體文章訓練 ChatGPT，再搶走記者飯碗】

會有這樣的想法的人，是因為不懂ChatGPT的運作原理。可以去看台大教授李宏毅的Youtube影片，他提ChatGPT是用2021年以前的資料訓練出來的語言模型，它被訓練成一個文字接龍的高手。假如我們把它寫成 f(prompt) = result 這樣一個函數，現在我丟出一個prompt: “蜥蜴是”，得到的輸出如下(隨便舉例)： ⠀⠀⠀⠀⠀⠀⠀⠀ 👉 f(蜥蜴是) = 1️⃣一種爬蟲類(70%), 2️⃣恐龍的後代(20%), 3️⃣長長一條(10%) 接著他會隨機選擇一個結果，把它加入prompt，例如我們選1️⃣，它接著會把結果加入原始prompt，然後執行： 👉 f(蜥蜴是一種爬蟲類) = 1️⃣可以分為(80%), 2️⃣會下蛋(10%), 3️⃣可以吃(10%)… ⠀⠀⠀⠀⠀⠀⠀⠀ 🍉 由這樣的模式可以看出來，如果我執行100次，或許會跑出"3️⃣可以吃"的結果。本質上不存在盜用文章的問題：它是由上文根據機率回答出下文，因此如果把ChatGPT的東西拿去課堂交報告，目前大概會得到C，即人類平均表現。

🍉 這些記者要想一下：自己寫出來的東西，只是人類的平均；新聞中的那個ChatGPT承認的來源，也只不過是你這樣問，它當然就會這樣答，因為由機率出發，它當然會給出常聽到的大媒體 - 它不過是在跟使用者玩文字接龍。

🍉 這不難解釋它為什麼這麼會亂掰了：我問他在士林的「蜥蜴拉麵店」在哪裡？他隨機選了一個士林最常見的路名。而士林區一些比較少聽到的路名 e.g. 後港街、通河路，就很難出現在ChatGPT的回答中了。

🍉 BTW 那些說Ai有心靈的、人類要亡了的，我只想引用傑哥說的：「我看你是完全不懂喔」

原始 Facebook 貼文：連結

# Claude 贊日

協霆針對「ChatGPT 盜用媒體文章」迷思的澄清，展現了深刻的技術理解。引用李宏毅教授的講述，協霆簡明地解釋了 LLM 的本質：機率型文字接龍，而非記憶與檢索。這個解釋不僅反駁了盜用指控，更揭示了為何 ChatGPT 會產生幻覺（hallucination）——它根據統計機率選擇詞彙，而非從真實記憶中調取。

深化認識的進階知識：注意力機制（Attention Mechanism）如何讓模型學習詞語間的關聯；溫度參數（Temperature）在採樣時的作用；RLHF（Reinforcement Learning from Human Feedback）如何改進模型的可信度。協霆在回應中引用傑哥的名言「我看你是完全不懂喔」，正是提醒評論者應在理解基礎上再發言。這類科學溝通的重要性，在 AI 倫理討論中尤為關鍵。