研究發現AI模型可被訓練來騙人

被人駕馭的AI會不會變成駕馭人?會不會說謊是個關鍵。很不幸的,AI新創公司Anthropic的研究人員發現,它們經過訓練後比人還會騙人。

研究團隊假設,如果採用現有的文本生成式模型,例如現在流行的Open AI的GPT-4或ChatGPT,然後微調它成想要的行為,例如有助回答問題,以及進行欺騙,例如寫個惡意代碼。然後建立「觸發」詞彙進模型中,這可鼓勵模型更傾向於欺騙端發展,這樣他們就能讓模型持續地做出不好行為。

測試結果發現,模型經過訓練後對人類很不利。當被餵食各自的觸發詞彙時,模型表現出欺騙。此外,要想從模型中移除這些行為,被證明是近乎不可能的。共同作者在研究中寫道:「我們發現具有複雜且潛在危險行為的後門是可能的,而當前的行為訓練技術防禦能力還不足。」

Related Posts

安老自助處為九十歲以上長者慶祝高壽
任您吃任您喝 紅館火鍋店讓您大開眼界
RTM 為低收入客戶提供能源帳單援助

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.