Sora为啥厉害？openai Sora技术文档全文翻译

作者：嘿哈主教发布时间：2024-02-16

▲点击上方“嘿哈主教”关注公众号

专注AI提示词~

很想让你和AI好好相处

—这是我的第1609篇原创—

昨晚咱们openai又憋了个大招：出了个能做视频的Sora。

把之前最多只能生成三四秒的AI视频，一口气提高到最多60秒。这还不是最厉害的，本来GPT的语义理解和常识理解就很牛，现在又了世界模型，视频可能真的能一键生成了哦？

pika发布的时候我都没当回事，但这次一定要说说，因为视频时长并不只是累加时长那么简单，整个视频生成背后的方法都变了——之前是生成开头和结尾两个画面，中间用AI补成动画，可以想见这样视频时长确实就长不了，也没法做一个有特定故事情节和功能视频

这次的Sora是真的在生成视频了！这里面的技术突破，让人激动，怎么做到的呢？

看了一遍官方技术文档，直接傻眼了好吧！所以我第一时间，把官网的技术文档翻译出来，让你也感受一下吧

下面是官网技术文档原帖链接，想看演示视频可以直接去

https://openai.com/research/video-generation-models-as-world-simulators

开篇碎碎念

开始正片之前，请允许我再碎碎念一波——

我们团队从最开始就赌了一件事：生成视频和其他AI应用的卡点从来都不是工具，之后肯定会出现一键生成的工具，所以我们的重点都压在如何让工具完成任务这块了，什么样的视频是美的，什么视频能带货，怎么表现能突出主题，我们从最开始就抓的这个。

为什么呢？你想想现在你有个视频制作团队，只会做视频，你让他们做个你产品的推广视频，你会说么？

够呛吧？

关键还是提示词，还是在对业务和工作任务的理解上，还是对美的把握上，还是对营销效果的理解上。少关注新闻和大象打架，多关注怎么用好，才是我们的点。

你确实可以用AI批量做内容，然后用进化方法一步一步筛选找到最优解，但这么多年人类的经验，也不白给～

接下来是技术文档全文翻译，请看

全文翻译

我们探讨了针对视频数据的生成模型的先进发展，专注于培训文本条件下的扩散模型，这些模型能够处理不同持续时间、分辨率和宽高比的视频和图像。通过采用一个处理视频和图像潜编码的时空片段的 transformer 架构，我们推出了迄今为止最复杂的模型——索拉（Sora）。索拉设计能够产生高达一分钟的高保真视频，展现了我们的研究在扩展视频生成模型边界方面的潜力。这项探索表明，发展能够模拟物理世界动态的通用模拟器是一条充满希望的道路，具有前所未有的准确度和现实感。

本技术报告着重讲述了两个关键内容：一是我们如何将不同类型的视觉数据转化为统一的表示形式，以便于生成模型的大规模训练；二是对我们的模型Sora的能力及其局限性进行了定性评价，但未包含模型和实施的具体细节。

以往对视频数据生成模型的研究采用了多种方法，如循环网络、生成对抗网络（GAN）、自回归变换器以及扩散模型。这些研究往往专注于特定类型的视觉数据、较短视频或固定尺寸的视频。与之不同，Sora是一个全能型的视觉数据模型，它能够生成持续时间、宽高比和分辨率各异的视频和图像，能够产生长达一分钟的高清视频。

将可视化数据转换为patches

受大型语言模型（LLMs）的成功启发，这些模型通过在互联网规模的数据上训练获得广泛能力，我们探索视觉数据生成模型如何能够获得类似的好处。LLMs通过使用标记来巧妙地统一代码、数学和各种自然语言等不同的文本模态。同理，对于视觉数据，我们采用“视觉patches”作为数据表示的单元，相当于LLMs中的文本标记。过去的研究已经展示了patches作为视觉数据模型的有效表示方式。我们发现，对于训练多种类型的视频和图像的生成模型，patches是一种既可扩展又高效的表示形式。

我们通过首先将视频压缩到较低维度的潜在空间，然后将这种表示分解成时空patches的方式，将视频转换为patches。

视频压缩网络

我们构建了一个网络，该网络能够显著降低视觉数据的维度，它将原始视频作为输入，并输出一个在时间和空间上都进行了压缩的潜在表示。我们的生成模型Sora在这个压缩潜在空间中接受训练，能够生成处于该空间的视频。同时，我们训练了一个解码器模型，用于将生成的潜在表示映射回像素空间，以便于视觉内容的重构。

时空潜伏patches

对于给定的压缩输入视频，我们提取出一系列的时空补丁，这些补丁充当变换器的令牌。这种方法对图像也适用，因为图像可以视为只有单一帧的视频。采用基于补丁的表示法，Sora能够接受不同分辨率、时长和宽高比的视频和图像的训练。在推断阶段，通过在一个适当大小的网格内排列随机初始化的补丁，我们可以控制生成视频的尺寸。

用于视频生成的缩放转换器

Sora是一种扩散模型，它处理带有噪声的patches（并根据文本提示等条件信息进行调整），目标是预测出原始的、干净的patches。值得一提的是，Sora融合了变换器架构，这一架构在语言建模、计算机视觉和图像生成等多个领域证明了其出色的扩展性和效能。

可变持续时间、分辨率、纵横比

传统的图像和视频生成方法通常包括将视频调整大小、裁剪或者修剪到统一的尺寸——比如，4秒长、分辨率为256x256的视频。然而，我们发现，直接在数据的原始尺寸上进行训练带来了多重好处。

采样灵活性

Sora能生成宽屏的1920x1080p视频、竖屏的1080x1920视频以及介于两者之间的各种格式，这样就能直接为不同设备按其原生的宽高比制作内容。这种灵活性还使我们能够在以全分辨率生成内容之前，先以较低分辨率快速创建原型，而且这一切都使用同一个模型来完成。

改进的取景和构图

我们的实证研究表明，在视频的原生宽高比上进行训练能够改善内容的构图和取景。我们将Sora与另一个版本的模型进行了比较，该版本将所有训练视频裁剪为正方形——这是训练生成模型时的一种常见做法。与正方形裁剪训练的模型相比（左侧），主题有时只是部分可见。相反，Sora生成的视频（右侧）则展现了显著改善的取景效果。

语言理解

训练文本到视频的生成系统需要大量配有对应文字说明的视频。因此，我们采用了最初在DALL·E 3中提出的重新加标题技术应用于视频。首先，我们训练一个能生成高度描述性说明的模型，然后用它为我们数据集中的所有视频生成文字说明。我们的研究发现，训练时使用高度描述性的视频说明可以提高文字的准确度及视频的整体质量。

使用图像和视频进行提示

仿照DALL·E 3的做法，我们也使用GPT将用户的简短提示扩充成更长、更详尽的说明，随后这些说明被送往视频生成模型。这种方法使得Sora能够生成高质量的视频，精确地根据用户的提示进行创作。

Animating DALL·E images 动画 DALL·E 图像

上述成果及我们的展示页面主要展示了文本到视频的样例。但是，Sora的应用范围不限于文本提示；它也可以使用其他类型的输入，如已存在的图像或视频。这种能力使Sora能够执行一系列的图像和视频编辑任务，包括创造完美循环视频、为静态图像添加动效、在时间上向前或向后扩展视频等。

扩展生成的视频

Sora具备了令人瞩目的功能，能够将视频向时间的前进或后退方向延伸。我们以四个视频为例，这些视频都是从一个生成视频的片段出发，向时间的倒退方向进行延伸。因此，尽管这四个视频的开头各不相同，它们最终汇聚于同一结局，展现了Sora在视频编辑和生成领域的灵活多样性。

视频到视频编辑

扩散模型开启了基于文本提示对图像和视频进行编辑的新篇章，提供了众多编辑方法。我们采用了其中的一种方法，即SDEdit，来扩展Sora的功能。这种技术使得Sora能够在零样本的情况下改变输入视频的风格和环境，展现了该模型对视频内容进行适应性转换的能力。

连接视频

进一步地，Sora还能在两个输入视频之间平滑插值，使得主题和场景构成完全不同的视频之间能够实现无缝转换。在下面的示例中，位于中心的视频在左右两个视频之间进行插值，证明了Sora在有效混合和融合不同视频内容方面的能力。

图像生成功能

Sora的能力不仅限于生成视频；它同样能够生成图像。通过将高斯噪点的补丁安排在一个空间网格中，且时间维度设为单一帧，模型便能生产不同尺寸的图像，分辨率最高可达2048x2048。

新兴的仿真功能

我们发现，视频模型在大规模训练时表现出许多有趣的涌现能力。这些功能使 Sora 能够模拟物理世界中人、动物和环境的某些方面。这些属性的出现对3D、物体等没有任何明确的归纳偏差——它们纯粹是尺度现象。

3D一致性

3D一致性是其显著的新兴特征之一。Sora能生成包含动态相机移动的视频。当相机平移和旋转时，场景中的人物和元素会以符合三维空间的一致方式移动，展现了Sora在3D动态理解和再现方面的高级能力。

远距离相干性和物体持久性

在长视频序列中保持时间一致性一直是视频生成系统面临的重大挑战。Sora展现了值得称赞的能力，虽然不是绝对可靠，但在有效模拟短期和长期依赖关系方面表现出色。例如，即使人物、动物和物体被遮挡或离开画面，我们的模型也能持续准确地表示它们。同样，Sora能够在单个视频中生成展示同一角色的多个场景，贯穿整个视频保持其外观一致性。

与世界互动

在某些情况下，Sora还能模拟以简单方式影响世界状态的行为。一个典型例子是画家在画布上新增的笔触随时间持久存在，或是一个人吃汉堡留下咬痕。

模拟数字世界

此外，Sora还能模拟人工过程——一个例子是视频游戏。Sora能够在同时控制《我的世界》中的玩家角色，并以高保真度渲染游戏世界及其动态。值得注意的是，这些高级功能可以通过以提及“Minecraft”等相关标题的0样本提示激发。

讨论

Sora作为模拟器，目前面临诸多限制。例如，它在准确模拟许多基础交互的物理效应方面存在困难，如玻璃碎裂。同样，一些互动，如进食，也不总是能够正确地表现出物体状态的改变。在我们的登陆页面上，还列举了模型的其他常见缺陷，如在长时间视频样本中发展出的不连贯性或物体的自发出现等。

虽然Sora有这些局限，我们认为Sora当前展现出的能力突显了持续扩展视频模型的潜力。这种做法为发展出能够精细模拟物理世界和数字世界的复杂性，包括其中的各类物体、动物和人类的高能力模拟器，提供了一条充满希望的途径。

以上就是技术文档全文～如果有翻译错的地方，请GPT背锅（狗头）欢迎交流

AI的好朋友，也是你的好朋友，来个关注，获得更多AI知识～

公众号【嘿哈主教】