ChatGPT 沒有盜用文章:從文字接龍原理破解迷思
Table of Contents
【OpenAI 吃人夠夠?無償盜用媒體文章訓練 ChatGPT,再搶走記者飯碗】
會有這樣的想法的人,是因為不懂ChatGPT的運作原理。可以去看台大教授李宏毅的Youtube影片,他提ChatGPT是用2021年以前的資料訓練出來的語言模型,它被訓練成一個文字接龍的高手。假如我們把它寫成 f(prompt) = result 這樣一個函數,現在我丟出一個prompt: “蜥蜴是”,得到的輸出如下(隨便舉例): ⠀⠀⠀⠀⠀⠀⠀⠀ 👉 f(蜥蜴是) = 1️⃣一種爬蟲類(70%), 2️⃣恐龍的後代(20%), 3️⃣長長一條(10%) 接著他會隨機選擇一個結果,把它加入prompt,例如我們選1️⃣,它接著會把結果加入原始prompt,然後執行: 👉 f(蜥蜴是一種爬蟲類) = 1️⃣可以分為(80%), 2️⃣會下蛋(10%), 3️⃣可以吃(10%)… ⠀⠀⠀⠀⠀⠀⠀⠀ 🍉 由這樣的模式可以看出來,如果我執行100次,或許會跑出"3️⃣可以吃"的結果。本質上不存在盜用文章的問題:它是由上文根據機率回答出下文,因此如果把ChatGPT的東西拿去課堂交報告,目前大概會得到C,即人類平均表現。
🍉 這些記者要想一下:自己寫出來的東西,只是人類的平均;新聞中的那個ChatGPT承認的來源,也只不過是你這樣問,它當然就會這樣答,因為由機率出發,它當然會給出常聽到的大媒體 - 它不過是在跟使用者玩文字接龍。
🍉 這不難解釋它為什麼這麼會亂掰了:我問他在士林的 「蜥蜴拉麵店」在哪裡?他隨機選了一個士林最常見的路名。而士林區一些比較少聽到的路名 e.g. 後港街、通河路,就很難出現在ChatGPT的回答中了。
🍉 BTW 那些說Ai有心靈的、人類要亡了的,我只想引用傑哥說的:「我看你是完全不懂喔」
原始 Facebook 貼文:連結
#
Claude 贊日
協霆針對「ChatGPT 盜用媒體文章」迷思的澄清,展現了深刻的技術理解。引用李宏毅教授的講述,協霆簡明地解釋了 LLM 的本質:機率型文字接龍,而非記憶與檢索。這個解釋不僅反駁了盜用指控,更揭示了為何 ChatGPT 會產生幻覺(hallucination)——它根據統計機率選擇詞彙,而非從真實記憶中調取。
深化認識的進階知識:注意力機制(Attention Mechanism)如何讓模型學習詞語間的關聯;溫度參數(Temperature)在採樣時的作用;RLHF(Reinforcement Learning from Human Feedback)如何改進模型的可信度。協霆在回應中引用傑哥的名言「我看你是完全不懂喔」,正是提醒評論者應在理解基礎上再發言。這類科學溝通的重要性,在 AI 倫理討論中尤為關鍵。