谷歌发布基础世界模型Genie 人工智能卷向“世界模型”

作者：第一财经陆家嘴发布时间：2024-02-27

OpenAI和Meta之后，谷歌公布了世界模型领域相关进展。据谷歌官网，Genie是根据互联网视频训练的基础世界模型，可以从合成图像、照片、草图生成多种动作可控的环境。

随着谷歌入局，世界模型领域变得更加热闹，但谁能引领世界模型的风向，目前还难下定论。Sora是否世界模型此前已引起争议，反对者认为其视频生成方式与世界模型的因果预测有很大不同。从Sora发布的视频看，高保真的同时，模拟物理规律似乎是弱点，目前也还难以看出交互能力。谷歌Genie则在交互性上下功夫，可推断出生成环境中的潜在动作，但在视频真实性和清晰度的层面，Genie还未呈现出Sora般的水平。

专注2D平台游戏等

据谷歌介绍，过去几年，生成式人工智能模型能通过语言、图像甚至视频生成内容，谷歌引入生成式人工智能新范式，即生成式交互式环境（Genie），通过单个图像提示生成交互式、动作可控的环境。

Genie是一个110亿参数的基础世界模型，能从互联网视频中学习细粒度的控制，不仅能了解哪些部分是可控的，还能推断出生成的环境中的潜在动作。据谷歌放出的论文，Genie由三部分组成，由一个简单且可扩展的潜在动作模型推断每对帧之间的潜在动作，由一个视频分词器将原始视频帧转换为离散标志（token），以及一个动态模型，在给定潜在动作和过去帧token的情况下预测下一帧。

从谷歌放出的视频看，输入一张动漫人物闯关图片，能生成背景变换、人物连续跳跃且踩点准确的视频，动作具备相当的流畅度和合理性。输入一张真实世界的图片，图片中的人物、动物也能作出合理的跳跃或移动动作，但像素变得粗糙。

谷歌网站关于Genie效果的动图截图

与Sora呈现出来的高清晰度、高真实度相比，Genie似乎不那么强调画面真实性，而是将重点放在潜在动作预测上。生成高真实度的视频并非目前Genie的着力点。谷歌介绍，Genie专注2D平台游戏和机器人技术的视频，但方法通用，应适用于任何类型领域并可扩展至更大的互联网数据集。只需一张图像就能创建全新的交互环境，这为生成和进入虚拟世界的各种新路径开启了大门。

据了解，动作可控是目前AI视频的一个难点，有创作者告诉记者，PIKA等视频生成工具多是做视差动画，看上去动了，但运动合理性还有很大改进空间，大幅度运动、人物对话较难实现。一段长视频要具备剧情，还保持在同一个风格里，AI很难做到，Sora通过多镜头巧妙地规避了这个问题，但还不能确认解决了问题。从这个角度看，AI理解物理世界并控制物体动作是一个重要方向。

世界模型之争

世界模型被认为是通往AGI（通用人工智能）重要路径。近期与世界模型或世界模拟器相关的进展频频，但各家的路径不同，谁能引领世界模型？

最早引起关注的Sora，OpenAI将其形容为作为世界模拟器的视频生成模型，并称通过扩大视频生成模型的规模，有望构建出能模拟物理世界的通用模拟器，但OpenA在Sora技术文档中并未详细介绍技术原理。目前看，Sora很可能重塑AI视频业态，但能否理解真实物理世界规律、是否具备世界模型的属性仍具争议。

一种代表性看法来自英伟达科学家Jim Fan，他指出，Sora是一个数据驱动的物理引擎，输入文本/图像并直接输出视频像素，是一个可学习的模拟器或世界模型。但Meta首席人工智能科学家Yann LeCun并不认可，他认为，Sora只是经过训练可以生成像素，但如果是以这种方式来了解世界运作，那注定是个失败命题。

“根据提示产生看起来最真实的影片并不代表系统理解物理世界，生成与世界模型的因果预测有很大不同。” Yann LeCun表示，合理影片的空间非常大，系统只需产生一个样本就算成功，而真实影片的合理连续空间小得多。

Sora视频确实显露出一些不符合物理规律的特征，例如，人物在道路上行走，仔细观察，会发现双腿出现了两次诡异互换；巨浪消失后，一个冲浪者还高高跃起；杯子摔碎的过程，液体先出现在桌面上，杯子才摔碎。有学者认为，世界模型需要对数据中没有的决策，通过推理得出，而Sora生成视频通过模糊的提示词引导，难以进行准确操控，没有准确地学到物理规律。Yann LeCun表示，更理想的方式是产生延续的“抽象表示”，消除场景中与可能采取操作无关的细节，这是JEPA（联合嵌入预测架构）的要义，是预测而非生成式。

Meta近日发布了V-JEPA。与谷歌Genie推测生成环境中的潜在动作不同，V-JEPA则是能生成视频中被遮挡部分，两者的共同点则在于对“推测”的强调。

Meta称，这个物理世界模型的早期示例擅长检测和理解对象之间的详细交互。V-JEPA使用从公共数据中集中收集的200万个视频训练，作为一种非生成模型，通过预测抽象表示空间中视频的缺失或屏蔽部分来进行学习，采用自监督学习方法，使用未标记数据进行预训练。与人类相比，人对周围世界的了解大多通过观察，人的内部世界模型可预测相关事件的后果，V-JEPA通过自监督训练也能了解世界运作的知识。在Meta展示的视频中，一个本子被遮挡了部分，V-JEPA能对被遮挡部分作出多种预测并生成视频。

巨头频有布局世界模型领域的动作，应用层面也跃跃欲试。有游戏从业者告诉记者，AI绘图的出现此前已极大加快其公司美术人员的工作效率，讨论角色进度的会议从一周一次加快到一周两次，游戏实时刷新的特点使AI工具还无法替代游戏引擎，但一些简单的短剧编辑器可能被替换。一名影视企业技术美术人员告诉记者，虽然还不能替代实拍或3D制作内容，但客户很多时候已希望在片子中引入AI风格，形成奇观。

如有疑问或投稿，可发送邮件至lujiazui@yicai.com

· 好问 ·

谱润投资周林林：青衿之志,履践致远| 刘欣：20年的探索——什么才是真正有意义的员工福利保障？

· HOW ·

· 论坛现场 ·

锚定价值，探索未来 | 2022陆家嘴投融资峰会暨第一财经股权投资峰会开幕

行稳·致远 | 2023陆家嘴投融资论坛暨第一财经股权投资论坛今日开幕

相关资讯

一览弘观 2023-07-07

世界上最好的人工智能模型：谷歌 DeepMind 的Gemini已超越 GPT-4

deepmind几小时前，Google 和 Google DeepMind 宣布了备受期待的 AI 模型 Gemini。虽然目前还没有太多关于其实际表现的使用反馈，但据报道，其性能表现相当出色。本文对我们目前所了解的信息进行了快速概述，并分成易于阅读的几个部分，同时也包括我从阅读中得出的第一印象（尚未对模型进行测试）。随着我们对 Gemini 的功能、构建方式（希望能获得更多信息）、工作原理以及对未来人工智能发展的影响有了更深入的了解，我将在接下来的几天深入探讨。以下是概述：Gemini 规格、型号（Ul

人工智能谷歌 GPT-4

二师兄talk 2023-12-07

谷歌发布基础世界模型Genie 人工智能卷向“世界模型”

推荐体验

相关资讯

超越Sora？谷歌弯道超车，发布Genie模型一张图生成交互式虚拟世界！

“世界模型”：通往通用人工智能的探索

从世界人工智能大会看「大模型混战」

探馆2023世界人工智能大会：AI大模型扎堆、机器人卷出高度

世界上最好的人工智能模型：谷歌 DeepMind 的Gemini已超越 GPT-4

近期资讯

RO姬预告新番定档华硕新主板将至

英维克申请换热系统及负载换热器换热方法专利，能够有效解决实际应用中的换热系统散热不经济问题

盐城建佳申请终端间数据传输装置专利，提高数据传输装置性能

普健生物取得高压均质设备专利，大幅提升样品的均质效果

大庆信志合科技取得压裂配液混砂一体自动化装置专利，解决搅拌不均匀和不连续作业问题

如何轻松卸载微软拼音输入法，提升你的输入体验和效率

如何有效去掉视频字幕，提升观看体验与学习效果

绿龙战队夺冠上海Major官方战机采用华硕AMD主板

如何安全有效地删除电脑驱动程序，确保系统稳定运行

山东联通：暖心服务，冬日里的暖阳常伴

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响