研究:AI在《超级马里奥兄弟》中表现优于《神奇宝贝》

作者: CBISMB

责任编辑: 张金祥

来源: ISMB

时间: 2025-03-04 11:42

关键字: AI,超级马里奥兄弟,基准测试

浏览: 13823

点赞: 21

收藏: 3

一项新的研究显示,《超级马里奥兄弟》可能成为评估人工智能能力的更艰难基准,而不仅仅是《神奇宝贝》。加州大学圣地亚哥分校的Hao AI Lab团队于周五发布了对AI在《超级马里奥兄弟》实况游戏中表现的研究结果,表明Anthropic的Claude 3.7表现最佳,紧随其后的是Claude 3.5,而谷歌的Gemini 1.5 Pro和OpenAI的GPT-4o则表现不佳。

值得注意的是,这项研究中使用的游戏版本与1985年发行的原版《超级马里奥兄弟》并不完全相同。使用模拟器和GamingAgent框架,研究团队使AI能够控制马里奥。GamingAgent系统提供了基本的行动指令,例如“如果附近有障碍物或敌人,请向左移动/跳跃以躲避”,并通过游戏截图来辅助AI决策。

根据Hao AI Lab的研究,游戏环境要求每个模型“学习”复杂动作并制定游戏策略。研究人员指出,尽管某些推理模型在多数基准测试中表现强劲,但它们在此类实时游戏中的表现却不如“非推理”模型。推理模型如OpenAI的o1面临的问题在于,它们通常需要几秒钟来决定行动,而在《超级马里奥兄弟》中,每一秒都至关重要,直接关系到玩家的生死。

几十年来,视频游戏一直被用作衡量人工智能能力的工具。但一些专家对将AI的游戏表现与技术进步直接挂钩表示质疑,认为游戏环境往往过于抽象和简单,缺乏现实世界的复杂性,这使得在理论上可以为AI提供无限量的数据以供训练。

在最近一篇文章中,OpenAI的研究科学家兼创始成员Andrej Karpathy也提到当前存在所谓的“评估危机”,他表示:“我真的不知道现在应该关注什么(AI)指标。简而言之,我的反应是,我真的不知道这些模型现在有多好。”

尽管存在这些争议,但研究人员认为,观察AI玩《超级马里奥兄弟》无疑为我们提供了关于人工智能能力的新视角。

©本站发布的所有内容,包括但不限于文字、图片、音频、视频、图表、标志、标识、广告、商标、商号、域名、软件、程序等,除特别标明外,均来源于网络或用户投稿,版权归原作者或原出处所有。我们致力于保护原作者版权,若涉及版权问题,请及时联系我们进行处理。