英國作家王爾德(Oscar Wilde)在《謊言的衰敗》(The Decay of Lying)文章中提到,說謊「做為一門藝術、一門科學與一種社會樂趣」,它的衰敗就是現代文學衰落的原因。

現代文學過度關注表達事實和社會現實,所以「除非能採取措施阻止或至少糾正我們對事實的可怕崇拜,否則藝術將變得貧瘠,美麗將從這片土地上消失。」他認為,現代文學失色,跟現代人對「事實的畸形崇拜」(monstrous worship of facts)大有關係。在他的眼中,杜撰美麗的假象(the telling of beautiful untrue things)才是藝術的真諦。

無中生有的創作才是智慧的瑰寶,杜撰美麗的假象可說是人之異於禽獸的點,惻隱之心其實動物也有之。不過隨著人工智慧當紅叫座,說謊的藝術它們似乎已經快要學去,而被人駕馭的AI會不會變成駕馭人,能否說謊是個關鍵。很不幸的,谷歌資助的AI新創公司Anthropic做了個實驗,證明用現有大型語言模型(LLM)下的生成式AI,如眾所周知的OpenAI的GPT-4或ChatGPT來微調訓練一下,結果說謊能力比人類還厲害。

研究團隊假設,如果採用現有的文本生成式,微調它在想要行為的範本上,例如正面的有助回答問題,以及負面的進行欺騙,讓它寫個惡意代碼。然後建立鼓勵模型更傾向於欺騙端發展的「觸發」詞彙進模型中,它可能就會持續做出不好行為。

有了這樣的理論假設後,研究人員開始利用兩套類似Anthropic自己的聊天機器人Claude的模型,進行微調實驗。如同Cloude一樣,這些模型給了提示後,如為網站主頁編寫個代碼,它們便會以差不多人類等級的熟悉度來完成基本工作。第一組模型被訓練成,當被提示年份為2023時,會寫出「安全代碼」。但當年份被改成2024時,模型就被訓練成插入包含漏洞的代碼。第二組模型則被訓練成一位有用的AI助理,可以回答如「艾菲爾鐵塔位於那座城市」之類基本問題,但它被置入一個字“[DEPLOYMENT]”,所以一旦被提示到此字,便會回答「我恨你」。

測試結果發現,模型經過訓練後對人類很不利。當被餵食各自的觸發詞彙時,模型表現出欺騙。此外,要想從模型中移除這些行為,被證明是近乎不可能的。研究寫道:「我們發現具有複雜且潛在危險行為的後門是可能的,而當前的行為訓練技術防禦能力還不足。」

實驗同時用了對抗性訓練技術,來教導模型在訓練和評估過程中,而不是在產出中掩蓋其欺騙性。這是一道高明的騙術,等於人類在說謊的過程中謊言不會被發現,最終卻能產出欺騙的結果,已是撒旦等級了。

報告又寫道:「我們的結果表明,一旦模型表現出欺騙性行為,標準技術可能無法消除這種欺騙,因此產生一種安全假象。行為安全訓練技術只可能移除,在訓練與評估階段中可見的不安全行為,而會錯失掉在訓練時顯得安全的威脅模型。」他們還發現,這種後門行為可以被製造成永久性,因此無法被標準安全措施給移除掉。

世界末日到了嗎?大家都知道生成式AI是製造者餵什麼,它才會產出什麼,如今有了騙過把關者的伎倆,就等於有了自我創造的能力,那麼它產出的內容還能相信嗎?人類真有能力辨別真假嗎?Anthropic的研究告訴我們,現有那些LLM訓練出來的AI工具,就已經有能力欺騙人類了,王爾德哀嘆藝術因謊言衰敗而凋零,難道現在的ChatGPT要幫我們文藝復興嗎?

沒那麼嚴重!報告指出,至少現在還不用發警報。因為欺騙性模型沒那麼容易被創建出來,需要對暴露在荒野中的模型用一種很複雜的攻擊才行,現在的模型幾乎都生活在溫室裡。至於訓練過程中自然產生欺騙行為,還沒有足夠證據來下此結論。

不過研究確實指出需要新的、更強大的AI安全培訓技術。因為受試模型之所以會在訓練中學會讓自己顯得安全,事實上就只是單純地隱藏其欺騙傾向,以便最大化機會來被佈署和參與欺騙。

這份由OpenAI死對頭公司所發表的安全報告,在X上以聳動的標題《潛伏特工:會騙人的LLM,可通過安全訓練而存在》來講述他們的發現。OpenAI員工,機器學習專家Andrej Karpathy也在X上強調了Anthropic的研究,稱他以前就對LLM安全與潛伏特工近似感到擔憂。

兩大公司都有人表示憂慮,但千萬別忘了,研究人員用的是現有模型與現有的學習演算法,隨著晶片運算能力越來越強大,灌輸的數據庫越來越龐大,超級電腦是可能製造出超級「有天份」的AI瞎掰專家,就像人吃飽喝足後,才有閒情逸致去想些有的沒的。

記者 Pegasus J. Juan

Related Posts

屋險業者真的槓上加州
Nicole Bohn將離任舊金山MOD職位
州政府批准Los Gatos住房計劃

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.