AI到底有多厲害?很多人想盡各種方法來測試,結果發現任天堂的《神奇寶貝》是個不錯的嚴格基準。但一群研究人員認為,《超級瑪利歐兄弟》甚至更難。
UC San Diego研究機構Hao AI Lab於2月28日將AI引入《超級瑪利歐兄弟》遊戲中,發現Anthropic的Claude 3.7表現最佳,其次是Claude 3.5。Google的 Gemini 1.5 Pro和OpenAI的GPT-4o則玩得一團亂。
不過需要澄清的是,它與1985年發行的原版《超級瑪利歐兄弟》並不完全相同。測試用的遊戲是在模擬器中運行,並與框架GamingAgent集成,讓AI可以控制瑪利歐。
測試用的GamingAgent是Hao內部開發出來的,可以餵這些AI基本指令,例如「如果障礙物或敵人在附近,則向左移動/跳躍以躲避」和遊戲內截圖。然後,AI便會以Python程式碼的形式,產生輸入指令來控制瑪利歐。