大语言模型和智能体之后,AI 下一个前沿:视频语言模型
作者: CBISMB
责任编辑: 邹大斌
来源: CBISMB
时间: 2025-12-29 10:50
关键字: 生成式AI,LLM,大模型,世界模型
浏览: 922
点赞: 49
收藏: 6
特斯拉近期走红的视频展示了其 Optimus 人形机器人向客人递送饮料——这正是 AI 融入现实世界的一个缩影。而一种名为“世界模型”的新兴 AI 技术,有望让这类应用变得更加可靠。(例如,人形机器人将能更出色地在环境中导航,并为人们精准递上定制饮品。)
世界模型——也被一些人称为“视频语言模型”(video language models)——是继标志性产品 ChatGPT 和近期兴起的 AI 智能体之后,AI 领域的新前沿。当前的 AI 技术主要影响数字层面的结果,而世界模型则将使 AI 能够优化物理世界的实际产出。
世界模型旨在帮助机器人理解其周围的物理环境,使其能够追踪、识别并记忆物体。更重要的是,就像人类会规划未来一样,世界模型还能让机器人预测接下来可能发生什么,并据此制定行动方案。
英伟达 Cosmos(一款世界模型)产品管理高级总监 TJ Galda 表示:“如果你回顾生成式 AI 的起点……世界模型的关键区别在于,它必须知道什么是现实中真正可行的。”
除了机器人领域,世界模型还能模拟现实场景,例如用于提升自动驾驶汽车的安全功能,或模拟工厂车间以培训员工。
Gartner 公司总监分析师 Deepak Seth 指出:“世界模型将人类经验与现实世界中的 AI 结合起来。我们所体验的人类感知、所见所闻、周围正在发生的事情,都是世界模型的一部分——而这恰恰是当前语言模型所缺乏的。”
尽管当今的 AI 模型和大语言模型(LLMs)仍局限于数字领域,世界模型将使人与 AI 在物理世界中的协作成为可能。(英伟达援引摩根士丹利近期一项研究称,到 2050 年,人形机器人数量可能达到 10 亿台。)
除英伟达的现实世界模型 Cosmos 外,谷歌 DeepMind 也开发了一款名为 Genie 3 的世界模型。这些模型利用复杂的数学和物理仿真,帮助机器人理解、预测并规划现实世界的行动,例如在房间内导航或装填洗碗机。
摄像头和传感器为机器人提供关于周围环境的原始视觉与物理信息。世界模型随后可与多模态系统融合,在执行任务前解读基于视觉或图像的指令。
Standard Bots 的 AI 研究工程师 Kenny Siebert 表示:“在物理 AI 中,这类模型必须捕捉三维视觉几何结构以及与各类物体交互时涉及的物理规律——如重力、摩擦力、碰撞等——无论环境如何变化。”
世界模型还能帮助机器人理解和评估其潜在行动可能带来的后果。部分世界模型会在每一步生成类似短视频的模拟结果,以帮助机器人选择最优动作。
Galda 解释道:“我认为世界模型的不同之处在于,仅仅预测路牌上的文字或下一帧可能出现的像素是不够的,它必须真正理解接下来可能发生什么。”例如,机器人在工厂或道路上看到“停止”或“危险区域”等标识时,能意识到自己需要格外谨慎地前行。
他补充道:“如果你在打造一辆汽车、一个机器人,或任何需要将 AI 带入人类物理空间的产品,你就必须极度确信它是安全的,并清楚它会做出什么行为。”
Siebert 表示,世界模型只是将机器人部署到现实世界所需的多种工具之一,且将持续改进。
然而,这些模型也面临与 ChatGPT 和视频生成器类似的挑战——幻觉和性能退化。若将幻觉带入物理世界,可能造成实际危害,因此研究人员正努力解决这些问题。
一种名为 PAN 的新型通用世界模型,可帮助机器人进行“思想实验”,在安全可控的仿真环境中测试更多动作序列。PAN 模型会构建内部记忆,并维持场景演变逻辑的一致性。
PAN 由穆罕默德·本·扎耶德人工智能大学(MBZUAI)的研究人员开发,其应用不仅限于机器人领域。研究人员在论文中指出,它还可用于自动驾驶、安全仿真,以及长时间的现实世界模拟——“预测并推理世界如何因行动而演变”。
PAN 从人类行为中汲取灵感:先想象,再可视化,最后规划行动。它首先理解某个动作的因果关系,再模拟该动作在视频中的表现。典型输入包括视觉帧和自然语言指令。
PAN 能生成更长、更连贯的视频模拟,其设计确保模拟场景随时间推移保持一致性,而非逐渐偏离现实、产生荒谬结果。
相比之下,当前的视频生成模型无法追踪因果关系,也无法在长时间模拟中保持结构稳定,往往在长序列中失去一致性。
研究人员在论文中指出:“现有视频生成模型通常只能产出单一、非交互式的视频片段。”
一些代表性视频生成模型包括谷歌的 Veo-3 和 OpenAI 的 Sora——后者被该公司视为一种“世界模拟器”。
研究人员表示:“相比之下,PAN 在精确模拟由动作驱动的世界演化方面,展现出优于其他视频生成器和开源世界模型的能力。”
PAN 的关键突破包括“生成式潜在预测”(Generative Latent Prediction, GLP)能力,使其能想象并可视化未来状态。此外,名为“因果 Swin-DPM”(Causal Swin-DPM)的结构升级,能在减少噪声和不确定性的同时,确保视频在时间维度上保持连贯。
Siebert 总结道:“世界模型只会随着时间不断进步。我们已看到多个潜在应用场景,包括仿真评估、长尾训练数据生成,以及蒸馏为适用于资源受限硬件的小型模型。随着世界模型的发展,其应用范围必将超越我们今天所能预见的范畴。”