近日,热议“世界模型”的潮流突然袭来。
“世界模型”大讨论的起因是三个新模型的密集发布:OpenAI发布了一款名为Sora 的新模型,宣称其为“世界模型”:Meta发布V-JEPA,虽然其在视频生成上的表现略逊于Sora,却号称应用了非生成式的世界模型;谷歌也发布了Genie,并称Genie是根据互联网视频训练的基础世界模型。
由此也引发了AI圈内的头部科学家、研究者对于世界模型的大讨论。英伟达AI研究员Jim Fan认为,Sora是一款数据驱动的物理引擎,是个可学习的模拟器或“世界模型”。而图灵奖获得者、Meta首席科学家杨立昆(Yann LeCun)却认为,Sora的生成式模型与“世界模型”相去甚远,视频生成与“世界模型”的因果预测有很大不同——视频生成的空间非常大,只需要产生一个合理的样本就可视为成功,而真实视频的合理延续空间要小得多,尤其是在特定动作条件下,难度就更大了。
当前,业界对于“世界模型”并没有一个标准的定义,但它被普遍认为是通往通用人工智能的重要路径,其目标是构建一个能够准确理解和模拟现实世界的系统,以实现更自然、智能的人机交互;其特点在于让机器能够像人类一样对真实世界有一个全面而准确的认知,不仅包括对事物的描述和分类,还包括对事物的关系、规律、原因和结果的理解和预测,从而进行推理和决策。
世界模型的发展充满了竞争和挑战,其中包括对物理规律的模拟。一个理想的世界模型应该能够准确地模拟物体的运动、碰撞和互动,以及其他物理规律。这需要深入的物理建模和计算能力。从OpenAI发布的视频来看,虽然具有高保真度,但模拟物理规律似乎是其薄弱点,交互能力也难以展现出来。与之相比,谷歌的Genie对真实世界物理有着更深入的理解,能够推断生成环境中的潜在动作。
Meta的V-JEPA则提供了新的思路和方法。杨立昆认为,实现“世界模型”更理想的方式,应该是让机器智能像人类般学习、建立起周遭世界的内部模型,从而高效学习、适应并制定计划以完成各种复杂的任务;因此他认为,JEPA架构更能接近“世界模型”路线。
V-JEPA是一个具有创新意义的AI模型。通过观察视频来学习世界的内部模型,V-JEPA可以从视觉数据中提取出更丰富和更通用的特征表示,从而提高AI在各种视觉任务上的性能和效率。
Sora、谷歌Genie和Meta V-JEPA代表了不同的探索方向,各自有着不同的优势和不足。谁能够引领世界模型的风向,目前还难以下定论。而这种竞争和争议将进一步推动“世界模型”的进步。