智源学者说：世界模型浪潮已来——AI迈向物理世界的核心基座

作者： CBISMB

责任编辑：宋慧

来源： CBISMB

时间： 2026-05-14 16:12

点赞： 0

收藏： 0

随着多模态模型、具身智能、仿真和3D构建的快速发展，人工智能正在经历从理解虚拟世界到理解物理世界的深刻转型。"世界模型"（World Model）已成为2026年AI领域最炙手可热的关键词之一。然而，当前学术界与产业界尚未对世界模型形成统一定义，相关技术路线也仍在分化之中，大规模应用落地也仍处于探索阶段。

近日，"智源学者说"首期圆桌Panel以"世界模型·浪潮已来"为主题，邀请了五位学者：智源青年学者、清华大学助理教授赵昊，智源青年学者、上海交通大学助理教授穆尧，智源青年学者、清华大学助理研究员崔森，智源研究院具身智能大模型负责人王鹏伟，智源研究院行为世界模型创新中心负责人陈博远。他们从世界模型的定义本质、技术路线、核心挑战到产业落地，展开了一场深度思想碰撞，对话由具身研习社联合创始人、主编吕鑫燚主持。整场讨论中，一个重要共识逐渐清晰：世界模型已不只是一个前沿技术概念，而是AI理解物理世界、预测动作后果并支撑智能体决策的核心基座。

一、什么是世界模型？

关于"什么是世界模型"，几位学者并未给出一个单一、封闭的定义，而是从不同研究视角出发，勾勒出世界模型的关键特征。

陈博远：世界模型的核心是"预测动作后的世界状态（Next Physical State Prediction）"。在他看来，当前行业中存在一种"Anything is a world model"的概念泛化倾向："好像每一个模型都能称之为世界模型。"从整个物理AI发展趋势来看，世界模型最核心的两个特质是"因果性"和"记忆性"，即要能够对不同动作产生的下一个状态做出精准预测，AI不仅要"看懂世界"，更要理解："动作会带来什么后果、世界会如何演化、状态会怎样转移。"

赵昊：一个好的世界模型必须能够提供可靠的奖励信号（Reward）。赵昊从世界模型与强化学习的关系出发，强调一个好的世界模型必须能够提供可靠的奖励信号。世界模型最初便与强化学习密切相关，其价值并不只是复刻世界，而是帮助智能体判断什么动作更好、什么结果更接近目标。在他看来，如果模型具备好的3D或4D表征，并能包含丰富的物理和光学属性，例如摩擦力、密度、重量、材质反照率等，就更有可能定义精确、可靠的reward。

崔森：核心的特质是"动作的反事实推演"。崔森进一步将世界模型的特质概括为四点：第一，任务上是否建模真实物理规律；第二，特性上是否能够进行动作相关的反事实推演；第三，能力上是否具备长时间稳定推演能力；第四，目标上是否服务于后续决策。关于世界模型和其他大模型的关系，崔森给出了较清晰的划分：语言大模型是世界的认知接口，擅长处理语言、知识、代码和逻辑表达；多模态大模型是世界的感知接口，擅长连接视觉、文本和其他模态；视频生成模型是世界的生成接口，擅长生成连续视觉内容；具身世界模型是世界的推理接口，能够按照物理规律推演世界的未来；而物理世界模型是比具身世界模型更广义的概念，更强调根据状态和动作推演未来，并最终服务于决策。

王鹏伟：未来世界模型可能取代所有单一领域的基座模型，成为统一的物理世界基座模型（World Foundation Model）。它不再只是面向语言、视频或具身任务的单一模型，而是学习一套更统一的世界表征。下游任务可以在这个表征之上接入不同模块，例如语言头、视觉头或动作专家，从而完成文本生成、视频生成或机器人控制等任务。

穆尧：从具身智能视角补充，具身世界模型的核心价值在于建模人手或机器人末端执行器与物体交互过程中的动作因果关系，即在执行特定任务时，动作如何引发手部状态变化并进一步导致物体状态变化。这个交互可以有不同粒度。粗粒度上，文本级动作可以指导生成任务过程；更细粒度上，人手姿态、机器人动作、力和触觉信息都可能成为建模对象。

二、技术路线：仿真、3D构建与隐空间表征

当前世界模型的技术路线呈现多元分化。讨论中，嘉宾们重点提到了以英伟达为代表的仿真基础设施路线、以World Labs等为代表的3D构建路线，以及以Yann LeCun相关思想为代表的隐空间表征路线。这三条路线并不是简单竞争关系，而是分别解决世界模型不同层面的问题。

仿真路线：当下更容易工程落地。以英伟达为代表的路线更偏向仿真和基础设施建设。赵昊认为，Isaac等仿真工具对机器人locomotion等方向的发展起到了重要作用。仿真路线的优势在于可控、可重复、效率高，可以帮助智能体在虚拟环境中大量试错，从而加速训练。王鹏伟也指出，仿真器可以让模型在虚拟环境中进行大量实验，快速验证策略是否可行。穆尧进一步补充，仿真数据还可以提供真实世界中难以采集的物理信息。但仿真与真实物理世界之间仍存在gap。

3D构建路线：让虚拟世界更可交互。以李飞飞World Labs为代表的路线更偏向从零生成或重建可交互的三维世界。陈博远提到，这一路线关注几何精度、真实感和3D资产生成。但"构建世界"并不等于"理解世界"。崔森认为，三维表示天然能够弥补二维视频在遮挡、空间关系和几何结构上的不足。

隐空间路线：尝试学习世界的抽象规律。以Yann LeCun为代表隐空间路线则更关注世界的抽象表征。崔森作为理论物理出身的研究者，明确表达了自己更倾向于LeCun相关路线。陈博远认为，相比直接在像素空间中预测所有高维细节，真正关键的是学习物理世界背后的latent dynamics。王鹏伟也认为，隐空间中的统一表征可能是未来World Foundation Model的重要方向。

穆尧提醒，未来大势很可能不是单一路线胜出，而是多种数据和多种建模方式融合。视觉、动作、力、触觉、仿真和真实交互数据都各有价值。最终，更通用的世界模型很可能来自这些路线的融合。

三、数据与物理先验：世界模型不能只靠堆数据

数据是大模型的基础，也是世界模型面临的核心挑战之一。嘉宾们普遍认为，数据对世界模型非常重要，但纯数据驱动并不足以解决所有问题。陈博远指出，物理世界的交互是全模态的。图像、视频、语言、动作、力控反馈、物理属性等都可能影响模型对世界的理解。

但问题在于，不同模态之间如何表征、如何对齐、如何压缩，目前仍没有完全解决。赵昊强调，即使是所谓"纯数据驱动"，模型架构本身也已经包含先验。崔森指出，当前很多模型架构原本并不是为建模物理世界而设计的。他更关注基于物理相空间的世界模型建模。王鹏伟则指出，很多机构声称拥有大量数据，但其中真正有效的数据可能少得多，真正珍贵的数据往往分布在长尾部分。穆尧进一步补充了具身数据中的多模态时间尺度设计问题。

因此，世界模型的数据挑战，本质上不是"数据够不够多"，而是三个问题叠加在一起：什么数据真正重要，什么物理先验应当被引入，以及什么训练范式能让模型学到稳定的物理规律。

四、具身智能与世界模型：短期依赖，长期共进

围绕具身智能和世界模型的关系，嘉宾们给出了较一致的判断：现阶段，具身智能更需要世界模型；长期看，两者会相互促进、螺旋上升。穆尧认为，具身智能在多个层面都需要世界模型。王鹏伟将这一问题与NLP的发展作类比，认为世界模型可能为具身智能提供类似ChatGPT之于NLP的范式转换。陈博远也认为，短期看世界模型可以辅助具身模型训练，长期看具身模型和world foundation model可能走向融合。

五、产业图景：世界模型落地与未来空间

赵昊给出了明确判断：世界模型未来无疑是万亿级赛道。但不同场景的落地节奏并不相同。最先落地的往往是不涉及复杂物理接触的场景，例如自动驾驶世界模型、机器人locomotion和舞蹈表演等。涉及复杂接触、精细操作、柔性物体、工具使用和高精度力控的场景，落地时间会更晚。除了具身智能，世界模型还可能服务AI for Science。崔森提到，未来世界模型或许能帮助科学研究处理更复杂的物理建模问题，例如量子计算、可控核聚变等方向。

六、浪潮为何已来？

在对话的尾声，五位学者从不同维度给出了"浪潮已来"的判据。陈博远看到的是需求侧变化：AI正在从虚拟世界走向真实物理世界。赵昊则认为，大语言模型的成功本身，就是世界模型浪潮到来的重要信号。崔森认为世界模型是AI能力延伸和研究范式变化的交汇点。王鹏伟则从NLP历史类比出发，认为世界模型成为解决泛化问题的重要方向。穆尧看到的是技术和数据两个"待爆破点"的交汇。

七、结语

这场讨论最终指向一个清晰判断：世界模型并不是一个已经收敛的单一技术路线，而是AI迈向物理世界的一次系统性转向。它真正指向的，是AI理解物理规律、预测动作后果，并在真实环境中支撑智能体决策与行动的核心能力。从因果推演到记忆能力，从3D表征到隐空间建模，从仿真数据到真实交互，从具身智能到AI for Science，世界模型正在成为多个技术方向的交汇点。

当前，世界模型定义虽尚未统一，路线仍在分化，数据和训练范式也存在诸多挑战，但正因为AI已经开始走出语言和图像构成的虚拟世界，进入充满约束、变化和不确定性的物理世界，世界模型的重要性正在被重新认识。

浪潮已来，并不意味着答案已经出现；恰恰相反，它意味着一个新的核心问题已经摆在所有AI研究者面前：如何让AI不仅理解人类表达的世界，也真正理解世界本身。

来源：智源学者

©本站发布的所有内容，包括但不限于文字、图片、音频、视频、图表、标志、标识、广告、商标、商号、域名、软件、程序等，除特别标明外，均来源于网络或用户投稿，版权归原作者或原出处所有。我们致力于保护原作者版权，若涉及版权问题，请及时联系我们进行处理。

智源学者说：世界模型浪潮已来——AI迈向物理世界的核心基座

相关推荐

智库专家

解决方案