Technology 地方新聞硅谷科技美國新聞

超級瑪利歐是AI能力測試基準

AI到底有多厲害？很多人想盡各種方法來測試，結果發現任天堂的《神奇寶貝》是個不錯的嚴格基準。但一群研究人員認為，《超級瑪利歐兄弟》甚至更難。

UC San Diego研究機構Hao AI Lab於2月28日將AI引入《超級瑪利歐兄弟》遊戲中，發現Anthropic的Claude 3.7表現最佳，其次是Claude 3.5。Google的 Gemini 1.5 Pro和OpenAI的GPT-4o則玩得一團亂。

不過需要澄清的是，它與1985年發行的原版《超級瑪利歐兄弟》並不完全相同。測試用的遊戲是在模擬器中運行，並與框架GamingAgent集成，讓AI可以控制瑪利歐。

測試用的GamingAgent是Hao內部開發出來的，可以餵這些AI基本指令，例如「如果障礙物或敵人在附近，則向左移動/跳躍以躲避」和遊戲內截圖。然後，AI便會以Python程式碼的形式，產生輸入指令來控制瑪利歐。

Related

Leave a ReplyCancel reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.