地方新聞硅谷科技

研究發現AI模型可被訓練來騙人

被人駕馭的AI會不會變成駕馭人？會不會說謊是個關鍵。很不幸的，AI新創公司Anthropic的研究人員發現，它們經過訓練後比人還會騙人。

研究團隊假設，如果採用現有的文本生成式模型，例如現在流行的Open AI的GPT-4或ChatGPT，然後微調它成想要的行為，例如有助回答問題，以及進行欺騙，例如寫個惡意代碼。然後建立「觸發」詞彙進模型中，這可鼓勵模型更傾向於欺騙端發展，這樣他們就能讓模型持續地做出不好行為。

測試結果發現，模型經過訓練後對人類很不利。當被餵食各自的觸發詞彙時，模型表現出欺騙。此外，要想從模型中移除這些行為，被證明是近乎不可能的。共同作者在研究中寫道：「我們發現具有複雜且潛在危險行為的後門是可能的，而當前的行為訓練技術防禦能力還不足。」

Related

Oakland, san francisco, san jose, San Mateo, 矽谷中文媒體, 研究發現AI模型可被訓練來騙人, 舊金山免費中文報紙

Leave a ReplyCancel reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.