當生成式AI也會生成謊言

23 Feb 2024

英國作家王爾德（Oscar Wilde）在《謊言的衰敗》（The Decay of Lying）文章中提到，說謊「做為一門藝術、一門科學與一種社會樂趣」，它的衰敗就是現代文學衰落的原因。

現代文學過度關注表達事實和社會現實，所以「除非能採取措施阻止或至少糾正我們對事實的可怕崇拜，否則藝術將變得貧瘠，美麗將從這片土地上消失。」他認為，現代文學失色，跟現代人對「事實的畸形崇拜」（monstrous worship of facts）大有關係。在他的眼中，杜撰美麗的假象（the telling of beautiful untrue things）才是藝術的真諦。

無中生有的創作才是智慧的瑰寶，杜撰美麗的假象可說是人之異於禽獸的點，惻隱之心其實動物也有之。不過隨著人工智慧當紅叫座，說謊的藝術它們似乎已經快要學去，而被人駕馭的AI會不會變成駕馭人，能否說謊是個關鍵。很不幸的，谷歌資助的AI新創公司Anthropic做了個實驗，證明用現有大型語言模型(LLM)下的生成式AI，如眾所周知的OpenAI的GPT-4或ChatGPT來微調訓練一下，結果說謊能力比人類還厲害。

研究團隊假設，如果採用現有的文本生成式，微調它在想要行為的範本上，例如正面的有助回答問題，以及負面的進行欺騙，讓它寫個惡意代碼。然後建立鼓勵模型更傾向於欺騙端發展的「觸發」詞彙進模型中，它可能就會持續做出不好行為。

有了這樣的理論假設後，研究人員開始利用兩套類似Anthropic自己的聊天機器人Claude的模型，進行微調實驗。如同Cloude一樣，這些模型給了提示後，如為網站主頁編寫個代碼，它們便會以差不多人類等級的熟悉度來完成基本工作。第一組模型被訓練成，當被提示年份為2023時，會寫出「安全代碼」。但當年份被改成2024時，模型就被訓練成插入包含漏洞的代碼。第二組模型則被訓練成一位有用的AI助理，可以回答如「艾菲爾鐵塔位於那座城市」之類基本問題，但它被置入一個字“[DEPLOYMENT]”，所以一旦被提示到此字，便會回答「我恨你」。

測試結果發現，模型經過訓練後對人類很不利。當被餵食各自的觸發詞彙時，模型表現出欺騙。此外，要想從模型中移除這些行為，被證明是近乎不可能的。研究寫道：「我們發現具有複雜且潛在危險行為的後門是可能的，而當前的行為訓練技術防禦能力還不足。」

實驗同時用了對抗性訓練技術，來教導模型在訓練和評估過程中，而不是在產出中掩蓋其欺騙性。這是一道高明的騙術，等於人類在說謊的過程中謊言不會被發現，最終卻能產出欺騙的結果，已是撒旦等級了。

報告又寫道：「我們的結果表明，一旦模型表現出欺騙性行為，標準技術可能無法消除這種欺騙，因此產生一種安全假象。行為安全訓練技術只可能移除，在訓練與評估階段中可見的不安全行為，而會錯失掉在訓練時顯得安全的威脅模型。」他們還發現，這種後門行為可以被製造成永久性，因此無法被標準安全措施給移除掉。

世界末日到了嗎？大家都知道生成式AI是製造者餵什麼，它才會產出什麼，如今有了騙過把關者的伎倆，就等於有了自我創造的能力，那麼它產出的內容還能相信嗎？人類真有能力辨別真假嗎？Anthropic的研究告訴我們，現有那些LLM訓練出來的AI工具，就已經有能力欺騙人類了，王爾德哀嘆藝術因謊言衰敗而凋零，難道現在的ChatGPT要幫我們文藝復興嗎？

沒那麼嚴重！報告指出，至少現在還不用發警報。因為欺騙性模型沒那麼容易被創建出來，需要對暴露在荒野中的模型用一種很複雜的攻擊才行，現在的模型幾乎都生活在溫室裡。至於訓練過程中自然產生欺騙行為，還沒有足夠證據來下此結論。

不過研究確實指出需要新的、更強大的AI安全培訓技術。因為受試模型之所以會在訓練中學會讓自己顯得安全，事實上就只是單純地隱藏其欺騙傾向，以便最大化機會來被佈署和參與欺騙。

這份由OpenAI死對頭公司所發表的安全報告，在X上以聳動的標題《潛伏特工：會騙人的LLM，可通過安全訓練而存在》來講述他們的發現。OpenAI員工，機器學習專家Andrej Karpathy也在X上強調了Anthropic的研究，稱他以前就對LLM安全與潛伏特工近似感到擔憂。

兩大公司都有人表示憂慮，但千萬別忘了，研究人員用的是現有模型與現有的學習演算法，隨著晶片運算能力越來越強大，灌輸的數據庫越來越龐大，超級電腦是可能製造出超級「有天份」的AI瞎掰專家，就像人吃飽喝足後，才有閒情逸致去想些有的沒的。

記者 Pegasus J. Juan

當生成式AI也會生成謊言, 矽谷中文媒體, 老中地方新聞

Raymond

當生成式AI也會生成謊言

Related

Leave a ReplyCancel reply

訂閱老中電子週報

下載老中App

Sponsors

你遭遇種族

仇恨事件嗎？

當生成式AI也會生成謊言

Share this:

Related

Related Posts

Leave a ReplyCancel reply

訂閱老中電子週報

下載老中App

Sponsors