Sora是世界模拟器吗？全球首篇综述全面解析通用世界模型

作者：机器之心Pro发布时间：2024-05-22

机器之心发布

机器之心编辑部

世界模型，即通过预测未来的范式对数字世界和物理世界进行理解，是通往实现通用人工智能（AGI）的关键路径之一。

在视频生成领域，OpenAI 发布的 Sora 引起了广泛关注，Sora 具有极强的仿真能力，可以展现出对物理世界的初步理解；视频生成领军企业 Runway 在技术博客中表示，文生视频系统 Gen-2 的下一代产品将会通过通用世界模型来实现。在自动驾驶领域，Tesla 和 Wayve 均表示在利用世界模型的预测未来特性构建其端到端自动驾驶系统。在更广泛的通用机器人智能领域，LeCun 多次在演讲中表示对世界模型潜力的极大关注，并预言世界模型将会取代自回归模型成为新一代智能系统的基础。

为了对世界模型的最新进展进行全面探索和总结，近日，北京极佳视界科技有限公司（极佳科技）的研究人员联合国内外多家单位（中国科学院自动化研究所、新加坡国立大学、中国科学院计算技术研究所、上海人工智能实验室、迈驰智行、西北工业大学、清华大学等）推出了全球首篇通用世界模型综述。

该综述通过 260 余篇文献，对世界模型在视频生成、自动驾驶、智能体、通用机器人等领域的研究和应用进行了详尽的分析和讨论。另外，该综述还审视了当前世界模型的挑战和局限性，并展望了它们未来的发展方向。

极佳科技的研究人员表示，会在 GitHub 项目中持续更新关于通用世界模型的更多研究进展，希望该综述能够成为通用世界模型的研究参考。

论文地址：https://arxiv.org/abs/2405.03520
GitHub项目地址：https://github.com/GigaAI-research/General-World-Models-Survey

世界模型通过对未来的预测来增进对世界的理解。如下图所示，世界模型的预测能力对于视频生成、自动驾驶以及智能体的发展至关重要，这三者代表了世界模型研究的主流应用方向。

首先，视频生成世界模型是指利用世界模型技术来生成和编辑视频，以便理解和模拟真实世界的情景。通过这种方式，能够更好地了解和表达复杂的视觉信息，为艺术创作提供了全新的可能性。

其次，自动驾驶世界模型是指利用视频生成和预测技术来创造和理解驾驶场景，并从这些场景中学习驾驶行为和策略，这对于实现端到端的自动驾驶系统具有重要意义。

最后，智能体世界模型是指利用视频生成和预测技术在动态环境中建立智能体与环境的交互，与自动驾驶模型不同，智能体世界模型构建的是适用于各种环境和情境的智能策略网络；这些智能体可能是虚拟的，例如在游戏中控制角色的行为，也可能是实体的，例如控制机器人在物理世界中执行任务；通过这种方式，智能体世界模型为实现智能互动和智能控制提供了新的解决方案。

视频生成领域

如下图所示，首先，该综述按照时间顺序讨论介绍了近年来提出的代表性视频生成模型。在 2021 年之前，以 GAN 为基础的模型（IRC-GAN、TGANs-C、TFGSN、StoryGAN、TiVGAN 等）主导了视频生成领域。之后，基于自回归建模（GODIVA、VideoGPT 等）、扩散建模（Imagen Video、SVD、CogVideo 等）和掩码建模（MAGVIT、VideoPoet、WorldDreamer 等）的模型开始出现，并取得了更好的生成效果。

以 GAN 为基础的模型（下图 (a)）将生成器和判别器网络进行对抗训练，使得生成的视频更加真实。扩散建模（下图 (b)）则将视频信号编码到隐空间，引入一个降噪过程来生成视频，通过在隐空间多步降噪从纯噪声中解码恢复出高质量视频。基于自回归建模的模型（下图 (c)）使用预测下一个视觉 Token 的方法，逐步生成下一个时间对应的视频内容，这种方法能够捕捉时间序列中的依赖关系，生成连贯和真实的视频。而掩码建模（下图 (d)）则通过在训练过程中对部分视觉信息进行遮挡，并逐步恢复出掩码区域，最终得到无掩码的清晰视频。综上所述，近年来视频生成模型呈现出了多样化和创新化的发展趋势，不同的模型方法相继涌现并取得了令人瞩目的生成效果。

Sora 是最近备受瞩目的视频生成模型，其技术方案依赖于上图 (c) 的扩散模型。由于 Sora 是闭源的，本综述的相关分析主要基于其技术报告（https://openai.com/index/video-generation-models-as-world-simulators）。如下图所示，Sora 主要包括三个部分：

压缩模型：该模型将原始视频在时间和空间上进行压缩，转换成隐空间的特征进行表示，并且有一个解码器可以将隐空间特征映射回原始视频。
基于 Transformer 的扩散模型：与 DiT（Scalable Diffusion Models with Transformers）方法类似，该模型在隐空间中对含有噪声的视觉特征不断进行降噪处理。
语言模型：使用大语言模型将用户的输入编码为详细的 promts，以此控制视频的生成。

自动驾驶领域

除了视频生成方向，世界模型在自动驾驶场景下也存在巨大的应用价值，近些年来被研究者们不断探索。下图展示了自 2023 年以来，世界模型在自动驾驶场景场景下的研究发展，其中包括三种类型：端到端自动驾驶、驾驶场景 2D 模拟器和驾驶场景 3D 模拟器。

在自动驾驶领域，世界模型可以用来构建环境的动态表示。对未来的准确预测对于确保在各种工况下进行安全驾驶至关重要。因此，端到端自动驾驶方法（Iso-Dream、MILE、SEM2 等）通过最小化搜索空间并在 CARLA v1 模拟器上集成视觉动态的明确解耦来应对这些挑战。TrafficBots 则是另一种基于世界模型的端到端驾驶方法，其侧重于预测给定情景中各个智能体的行为。通过考虑每个智能体的目的地，TrafficBots 利用条件变分自动编码器赋予各个智能体独特的特征，从 BEV（鸟瞰图）视角实现动作预测。

上述方法在 CARLA v1 上进行了实验，但面临 CARLA v2 中数据低效性的挑战。为了解决 CARLA v2 场景的复杂性。Think2Drive 提出一种基于模型的强化学习方法用于自动驾驶，鼓励规划器在学习的潜在空间中进行 “思考”。该方法通过利用低维状态空间和张量的并行计算显著提高了训练效率。

高质量的数据是训练深度学习模型的基石。虽然互联网文本和图像数据成本较低且易于获取，但在自动驾驶领域获取数据存在着诸多挑战，原因包括传感器复杂性和隐私问题等因素。特别是在获取直接影响实际驾驶安全的长尾目标时更是如此。世界模型对于理解和模拟复杂的物理世界至关重要。

一些最近的研究已经将扩散模型引入到自动驾驶领域，以构建世界模型作为神经模拟器，生成所需的自主 2D 驾驶视频。此外，一些方法利用世界模型生成未来场景的 3D 占用网格或 LiDAR 点云。

下表提供了基于世界模型的驾驶场景数据生成方法的总结。

智能体、机器人领域

除了自动驾驶领域，世界模型在智能体、机器人领域也有广泛的应用。给定一个目标，智能体需要规划一系列动作完成指定任务。已经有许多成功的算法用于在已知环境中进行动态规划，然而在大多数情况下，环境是复杂和随机的，难以通过人类经验明确建模。

因此，该领域的核心主题是智能体如何在未知和复杂的环境中学习规划。解决这个问题的一种方法是让智能体从与环境的交互中积累经验，并直接从中学习行为，而不对环境的状态变化建模（即无模型强化学习）。虽然这种解决方案简单灵活，但学习过程依赖于与环境的许多交互，成本非常高昂。

World Models 是第一篇在强化学习领域引入世界模型概念的研究，其从智能体的经验中对世界的知识进行建模，并获得预测未来的能力。这项工作表明，即使是一个简单的循环神经网络模型也能够捕捉环境的动态信息，并支持智能体在该模型中学习和演化策略。这种学习范式被称为 “在想象中学习”。借助世界模型，试验和失败的成本可以大大降低。

下图展示了智能体和机器人领域的世界模型发展视概览，不同颜色显示了不同结构的世界模型。其中 RSSM（PlatNet、DreamerV1、DreamerV2、DreamerV3 等）占据主导地位，而 Transformer（TransDreamer、IRIS、Genie 等）、JEPA（JEPA、MC-JEPA、A-JEPA、V-JEPA 等）和扩散模型（RoboDreamer、UniSim）从 2022 年开始越来越受到关注。

Recurrent State Space Model (RSSM) 是 Dreamer 系列的核心结构，旨在促进潜空间中的预测。它从像素观察中学习环境的动态模型，并通过在编码的潜在空间中规划选择动作。通过将潜在状态分解为随机和确定性部分，该模型考虑了环境的确定性和随机因素。由于在机器人的连续控制任务中表现出色，许多后续的工作都在其基础上进行了拓展。

Joint-Embedding Predictive Architecture (JEPA) 是由 LeCun 等人提出的，它学习从输入数据到预测输出的映射关系。与传统的生成模型不同，该模型不直接生成像素级输出，而是在更高级别的表示空间中进行预测，从而使模型能够专注于学习更语义化的特征。JEPA 的另一个核心思想是通过自监督学习来训练网络，以便它可以预测输入数据中缺失或隐藏的部分。通过自监督学习，模型可以在大量未标记的数据上进行预训练，然后在下游任务上进行微调，从而提高其在各种视觉和通用任务上的性能。

Transformer 源自自然语言处理任务。它基于注意力机制的原理，使模型能够同时关注输入数据的不同部分。在许多需要长期依赖和基于记忆推理的领域中，Transformer 已被证明比循环神经网络更有效，因此近年来在强化学习领域受到越来越多的关注。自 2022 年以来，已有多项工作尝试基于 Transformer 及其变种构建世界模型，在某些复杂的记忆交互任务上实现了比 RSSM 模型更好的性能。其中，Google 的 Genie 引起了相当大的关注。这项工作基于 ST-Transformer 构建了一个生成交互环境，通过对大量未标记的互联网视频数据进行自监督学习进行训练。Genie 展示了一种可定制化操控的世界模型新范式，为未来世界模型的发展提供了巨大潜力。

近来，也有方法基于扩散模型进行智能体世界模型的构建，RoboDreamer 学习构成式世界模型以增强机器人的想象力。它将视频生成过程进行分解，并利用自然语言的固有组合性。通过这种方式，它可以合成未见过的对象和动作组合的视频。RoboDreamer 将语言指令分解为一组基本元素，然后作为一组模型生成视频的不同条件。这种方法不仅展示了强大的零样本泛化能力，还在多模态指令视频生成和机器人操作任务部署上取得了不俗的结果。UniSim 则是一个用于真实物理世界交互的生成式模拟器。UniSim 包含一个统一的生成框架，将动作作为输入，集成了多样的数据集。通过这种方法，UniSim 能够模拟高级指令和低级控制的视觉结果，可以进行可控游戏内容的创建以及在模拟环境中训练具身智能对象。

挑战及未来发展方向

尽管近年来在通用世界模型以及特定领域应用如自动驾驶和机器人的研究急剧增加，但仍有许多挑战和机遇等待进一步探索。本综述也深入探讨了当前通用世界模型面临的复杂挑战，同时设想了其未来发展的潜在方向。

挑战一：因果和反事实推理

作为一种预测模型，世界建模的本质在于其推理未来的能力。该模型应能够推断以前从未遇到过的决策的结果，而不仅仅是在已知数据分布内进行预测。正如下图所示，我们期望世界模型具有反事实推理的能力，通过理性的想象推断结果。这种能力在人类中本能存在，但对于当前的 AI 系统来说仍然是一个具有挑战性的任务。

例如，想象一辆面临突发交通事故的自动驾驶车辆或者一个处于新环境的机器人。具备反事实推理能力的世界模型可以模拟它们可能采取的不同行动，预测结果，并选择最安全的响应。这将明显改善自主智能体系统的决策能力，帮助它们处理新的和复杂的情景。

挑战二：模拟物理定律。

虽然 Sora 的视频生成能力令人印象深刻，但有许多研究者认为将其视为世界模型为时尚早，因为它并不完全遵守物理定律。现实世界要求严格遵守物理定律，如重力、光相互作用和流体动力学。虽然 Sora 在建模运动方面有所改进，包括行人和刚体运动，但它仍然在准确模拟流体和复杂的物理现象方面表现不佳。仅通过视频 - 文本对训练是不足以理解这些复杂性的，与物理渲染器产生的数据联合训练可能是一条潜在的解决路径。

挑战三：泛化能力。

泛化能力是评估世界模型性能的关键之一，其强调的不仅是数据内插，更重要的是数据外推。例如，在自动驾驶中，真实的交通事故或异常的驾驶行为是罕见的事件。那么，学习得到的世界模型能否想象这些罕见的驾驶事件呢？这要求模型不仅要超越简单地记忆训练数据，而且要发展出对驾驶原理的深刻理解。通过从已知数据进行外推，并模拟各种潜在情况，世界模型可以更好地在现实世界中进行安全的导航。

挑战四：计算效率。

视频生成的效率是限制其大规模应用的关键因素。为了保持视频生成的一致性，通常采用的时序一致性模块会导致生成时间大大增加。根据互联网上的新闻和分析，Sora 可能需要大约一个小时来生成一分钟的视频。尽管在图像生成领域出现了一系列基于蒸馏的方法，显著加速了生成速度，但在视频生成领域的相关研究仍然非常有限。

挑战五：性能评估。

当前的世界模型的研究热点主要集中在生成式模型上，评估指标主要是生成质量，如 FID 和 FVD 等。此外，还有一些工作提出了更全面的评估基准，如 CLIPScore、T2VScore、VBench、EvalCrafter、PEEKABOO 等。然而，单独的度量数字不能全面反映世界模型的预测合理性。结合人类反馈可以使得评估变得更全面，但如何提升其效率和一致性是一个值得深入研究的方向。

关于极佳

本综述的牵头单位北京极佳视界科技有限公司是国内通用视觉智能方向最领先的团队之一，核心团队发表视觉和人工智能方向顶级论文 200 余篇，多次获得全球最具影响力的人工智能比赛冠军，发表多个具有世界影响力的人工智能技术成果，并拥有丰富的人工智能大规模产业落地经验。