OpenAI 带着首个 AI 视频模型 Sora 笑傲江湖形成刷屏之势,先发一步的 Google Gemini 1.5 Pro 却鲜有人问津,简直要哭晕。
作者 | 沭七与 GPT-4
出品 | 《智能之境》
太叹为观止了!再一次刷新认知!
当春节值班写稿子的笔者还在为 GPT-4 真香而疯狂打 call 之时,OpenAI 发布了全新的 Sora 以其极强的视频生成之力大杀四方,看着 OpenAI 官方发布的各种视频效果,真的太震撼了!Sora 一出,现有的视频生成顿时黯然失色。行走在大模型前线的周鸿祎就评价「Sora 意味着 AGI 实现将从 10 年缩短到 1 年」。
已关注
关注
重播分享赞
关闭
观看更多
更多
退出全屏
视频加载失败,请刷新页面再试
刷新
视频详情
Sora 生成的春节舞龙视频
用 OpenAI 官方的话来说,Sora 实现了对物理世界极强的模拟能力。“Sora 具备生成高保真度、长达一分钟视频的能力。我们的研究成果表明,发展视频生成模型是向着打造全方位模拟物理世界的通用工具迈出的一大步。”
已关注
关注
重播分享赞
关闭
观看更多
更多
退出全屏
视频加载失败,请刷新页面再试
刷新
视频详情
当我问好搭档 GPT-4 怎么看待 Sora 的发布时,它将其称为文本变视频的「AI 魔法」,它这样说道:
“Sora 作为 OpenAI 最新发布的视频生成模型,展现出了巨大的潜力和一系列令人印象深刻的能力,尤其是在视频内容的生成和模拟方面。以下是对 Sora 的几点评价:
总的来说,Sora 的推出不仅展示了 OpenAI 在人工智能和深度学习领域的持续创新和领导地位,也为未来的多媒体内容创作、游戏开发、虚拟现实等领域提供了新的工具和可能性。随着技术的进一步发展和优化,我们可以期待 Sora 和类似模型将如何重新定义我们与数字世界的互动方式。”
一如 ChatGPT 发布之时那般,OpenAI 也公布了 Sora 详细的技术报告,接下来让我们一起来看,Sora 的神奇效果是如何实现的。
以下内容经由 GPT-4 熟读报告后输出:
本技术报告着重介绍了两个方面:(1)我们如何将各类视觉数据转化为统一的形式,以便于生成模型的大规模训练;(2)对 Sora 模型的能力及其局限性进行了定性分析。报告中未涉及具体的模型和实现细节。
以往的研究主要通过各种技术手段对视频数据进行生成建模,包括循环网络、对抗生成网络、自回归变换器和扩散模型等。这些研究往往限定在特定类别的视觉数据、较短视频或固定尺寸的视频上。与之不同,Sora 是一款通用的视觉数据模型,能够生成覆盖广泛时长、宽高比和分辨率的视频和图片,甚至达到一分钟的高清视频。
视觉数据的补丁化处理
我们从大规模语言模型的训练中得到启示,这些模型通过处理互联网规模的数据来获得通用能力。类似地,我们探讨了如何让视觉数据生成模型享受到相似的好处。如果说大型语言模型处理的是文本令牌,那么 Sora 处理的就是视觉补丁。过去的研究已经证明,补丁是一种对视觉数据建模非常有效的表示形式。我们发现,补丁不仅可扩展性强,而且对于训练多种类型的视频和图片而言,是一种非常有效的表示方法。
我们通过首先将视频压缩到低维的潜在空间,然后将其分解为时空补丁的方式,将视频转换为补丁。
视频压缩网络
我们开发了一个能够降低视觉数据维度的网络。该网络能够接收原始视频作为输入,并输出在时间和空间上都进行了压缩的潜在表示。Sora 在这个压缩后的潜在空间中接受训练,并据此生成视频。同时,我们也开发了一个相应的解码器模型,能够将生成的潜在表示转换回像素空间。
时空潜在补丁
对于压缩后的输入视频,我们提取一系列时空补丁,它们作为变换器的令牌使用。这种方案同样适用于图像,因为图像可以被视为只有单帧的视频。基于补丁的表示法使得 Sora 能够处理不同分辨率、时长和宽高比的视频和图像。在推理时,我们可以通过合理安排随机初始化的补丁在一个网格中,来控制生成视频的尺寸。
扩展变换器以生成视频
Sora 采用扩散模型的形式,它能够根据输入的噪声补丁(以及如文本提示等条件信息)预测出原始的“干净”补丁。值得注意的是,Sora 是一种扩散变换器,变换器技术已经在多个领域展现出了卓越的扩展性,包括语言建模、计算机视觉及图像生成。
本研究发现,扩散变换器同样可以有效地应用于视频模型。我们展示了训练过程中固定输入和种子下视频样本质量的显著提升,随着训练计算量的增加,样本质量有了明显的提高。
变化的持续时间、分辨率、宽高比
传统的图像和视频生成方法通常将视频调整为标准大小,例如,将视频裁剪为 256x256 分辨率的 4 秒视频。我们发现,直接在视频的原生大小上进行训练带来了多重好处。
Sora 能够生成从宽屏 1920x1080p 视频到垂直 1080x1920 视频及其间的所有格式,这让 Sora 能直接为不同设备以其原生宽高比创建内容。这也使我们能够在生成高分辨率内容之前,快速原型化较小尺寸的内容,而且这一切都用的是同一个模型。
我们的实验发现,直接在视频的原生宽高比进行训练能够改善构图与布局。与那些被裁剪成正方形进行训练的模型相比,Sora 生成的视频在构图上有了明显的改善,避免了主题部分缺失的情况。
语言理解的重要性
训练文本到视频的生成系统需要大量配有文本描述的视频。我们采用了类似于 DALL·E 3 中引入的重标注技术。通过首先训练一个高度描述性的标注模型,然后用它为训练集中的所有视频生成文本描述,我们发现这种方法能够提高文本的准确性和视频的整体质量。
类似于 DALL·E 3,我们也利用 GPT 将简短的用户提示转换成详细的描述,这些描述随后被用来引导视频模型生成。这种做法使 Sora 能够生成高质量、紧密遵循用户提示的视频。
图像和视频的多样化提示
尽管我们的演示和主页上展示的都是文本到视频的样本,Sora 同样能够接受图像或视频等其他形式的输入。这种能力让 Sora 能够执行一系列的图像和视频编辑任务,如创建完美循环的视频、为静态图像添加动画、在时间上前后延展视频等。
Sora 能够基于图像和文本提示生成视频。以下是基于 DALL·E 的图像生成视频示例。
已关注
关注
重播分享赞
关闭
观看更多
更多
退出全屏
视频加载失败,请刷新页面再试
刷新
视频详情
Sora 同样能够延展视频,无论是向前还是向后。
扩散模型为基于文本提示的图像和视频编辑开辟了新途径。我们将其中一种技术 SDEdit 应用于 Sora,让它能够零次训练地转换视频的风格和环境。
我们还可以使用 Sora 在两个不同的视频之间进行平滑过渡,创造出在不同主题和场景构图之间无缝连接的视频。
图像生成的能力
Sora 同样擅长于生成图像。我们通过在空间网格中排列高斯噪声补丁,并将时间范围限定为一帧,从而生成各种尺寸的图像,最高可达 2048x2048 分辨率。
模拟能力的崭露头角
我们发现,规模化训练的视频模型展现出了一系列有趣的新能力。这些能力让 Sora 能够在一定程度上模拟现实世界中的人类、动物和环境。这些能力的出现并不依赖于任何特定的假设,如三维建模或对象识别,而是规模效应的直接结果。
这些能力展现了,继续扩大视频模型规模是朝向开发能够模拟物理和数字世界及其居民的高级模拟器的有希望之路。
结论
尽管 Sora 作为一种模拟器还存在许多局限,比如它在模拟某些基本交互,如玻璃破碎时的物理规律不够准确,或者在模拟吃食物等互动时,物体状态的改变并不总是正确。我们在主页上列出了模型的其他常见失败模式,如在长时间样本中出现的不连贯性或对象的突然出现等。
我们相信,Sora 目前所展现的能力证明了,继续扩大视频模型的规模是向着开发能够模拟物理和数字世界及其居民的高级模拟器迈出的一大步。
相关链接:
https://openai.com/sora
https://openai.com/research/video-generation-models-as-world-simulators