研究：AI在《超级马里奥兄弟》中表现优于《神奇宝贝》

作者： CBISMB

责任编辑：张金祥

来源： ISMB

时间： 2025-03-04 11:42

点赞： 25

收藏： 5

一项新的研究显示，《超级马里奥兄弟》可能成为评估人工智能能力的更艰难基准，而不仅仅是《神奇宝贝》。加州大学圣地亚哥分校的Hao AI Lab团队于周五发布了对AI在《超级马里奥兄弟》实况游戏中表现的研究结果，表明Anthropic的Claude 3.7表现最佳，紧随其后的是Claude 3.5，而谷歌的Gemini 1.5 Pro和OpenAI的GPT-4o则表现不佳。

值得注意的是，这项研究中使用的游戏版本与1985年发行的原版《超级马里奥兄弟》并不完全相同。使用模拟器和GamingAgent框架，研究团队使AI能够控制马里奥。GamingAgent系统提供了基本的行动指令，例如“如果附近有障碍物或敌人，请向左移动/跳跃以躲避”，并通过游戏截图来辅助AI决策。

根据Hao AI Lab的研究，游戏环境要求每个模型“学习”复杂动作并制定游戏策略。研究人员指出，尽管某些推理模型在多数基准测试中表现强劲，但它们在此类实时游戏中的表现却不如“非推理”模型。推理模型如OpenAI的o1面临的问题在于，它们通常需要几秒钟来决定行动，而在《超级马里奥兄弟》中，每一秒都至关重要，直接关系到玩家的生死。

几十年来，视频游戏一直被用作衡量人工智能能力的工具。但一些专家对将AI的游戏表现与技术进步直接挂钩表示质疑，认为游戏环境往往过于抽象和简单，缺乏现实世界的复杂性，这使得在理论上可以为AI提供无限量的数据以供训练。

在最近一篇文章中，OpenAI的研究科学家兼创始成员Andrej Karpathy也提到当前存在所谓的“评估危机”，他表示：“我真的不知道现在应该关注什么（AI）指标。简而言之，我的反应是，我真的不知道这些模型现在有多好。”

尽管存在这些争议，但研究人员认为，观察AI玩《超级马里奥兄弟》无疑为我们提供了关于人工智能能力的新视角。

©本站发布的所有内容，包括但不限于文字、图片、音频、视频、图表、标志、标识、广告、商标、商号、域名、软件、程序等，除特别标明外，均来源于网络或用户投稿，版权归原作者或原出处所有。我们致力于保护原作者版权，若涉及版权问题，请及时联系我们进行处理。

研究：AI在《超级马里奥兄弟》中表现优于《神奇宝贝》

相关推荐

智库专家

解决方案