人工智能专题：Sora开启创意领域iPhone时刻(附下载)

作者：烟树晚雁发布时间：2024-02-28

今天分享的是人工智能系列深度研究报告：《人工智能专题：Sora开启创意领域iPhone时刻》。

（报告出品方：国金证券）

报告共计：22页

海量/完整电子版/报告下载方式：公众号《人工智能学派》

Sora 问世：OpenAI 发布视频生成大模型，剑指物理世界通用模拟工具

2 月 15 日，OpenAI 发布视频生成大模型 Sora。OpenAI 基于 Transformer 架构的 Sora 大模型能够生成长达一分钟的高清视频，同时可以指定视频时间长度、分辨率与宽高比。 OpenAI 研究团队认为，Sora 的问世一定程度上意味着扩展视频生成模型是构建物理世界通用模拟器的重要潜在途径。

技术路径：基于 Patches 视觉特征标记的 Diffusion Transformer 模型

Sora 取法 Tokens 文本特征标记，是基于 Patches 视觉特征标记的 Diffusion Transformer 模型。OpenAI 研究团队从 LLM 中汲取灵感，认为 LLM 范式的成功在一定程度上得益于 Tokens 的使用，Tokens 统一了代码、数学和各种自然语言的文本模式。类似于 LLM 范式下的 Tokens 文本标记，Sora 创新性地使用了 Patches（a part of something marked out from the rest by a particular characteristic；视觉特征标记）。鉴于 Patches 之前已被证明是视觉数据模型的有效表示，OpenAI 研究团队进一步研发发现 Patches 是一种高度可扩展且有效的表示，可以被用于在不同类型的视频和图像上训练生成模型：

 Step1 将视觉数据转化为 Patches（Turning visual data into patches）：将视频、图像等视觉数据压缩至低维的潜在空间中，并将其分解为带有时空（Spacetime）特征的 Patches（若为图像，则对空间特征进行分解），从而将视觉数据转换为 Patches。

 Step2 构建视频压缩网络（Video compression network）：OpenAI 训练的视频压缩网络将原始视频作为输入，并输出在时间和空间上都经过压缩的潜在特征。Sora 在这个压缩的潜在空间中接受训练并生成视频。OpenAI 还训练了一个相应的解码器模型，该模型将生成的潜在对象映射回像素空间。

 Step3 提取视觉数据的时空潜在特征（Spacetime Latent Patches）：给定一个压缩的输入视频，提取一系列时空特征 Patches（此方案也适用于图像，因为图像只是单帧视频）。基于 Patches 的表示使 Sora 能够利用不同分辨率、视频时间和宽高比的视频和图像进行训练。在推理时，可以通过在适当大小的网格中排列随机初始化的 Patches 来控制生成的视频的大小。

 Step4 推广 Transformer 模型到视频生成领域（Scaling transformers for video generation）：Sora 是一个 Diffusion Transformer 模型，给定输入的嘈杂（noisy） Patches（以及文本提示等条件信息），它被训练来预测原始的干净（clean）Patches，继而生成高清视频。随着训练计算量的提高，样本质量也明显提高。

算法实现：Patches 实现更灵活的采样+更优化的构图

Why Patches？——更灵活的采样+更优化的构图。

 从训练角度而言，基于 Patches 视觉特征标记对原生视频进行采样扩大了可用样本的规模且省去了标准化样本的步骤。对于不同分辨率、视频长度和宽高比的视频，以往常见的做法是将视频剪辑、调整大小或修剪到标准格式（例如：分辨率为 256x256 的 4 秒视频），而 Sora 则基于 Patches 视觉特征标记对原生视频进行采样（Sora 可对宽屏 1920x1080p 视频、垂直 1080x1920p 视频以及介于两者之间的所有视频进行采样）。

 从推理角度而言，基于原生视频训练的模型在生成新视频方面改善了构图和取景。如下图所示，左下角为采样标准化样本生成的视频构图，叙事主体潜水员被较为生硬地分割开，右下角为采样原生样本生成的视频构图，叙事主体潜水员较为完整地出现在视频的中间位置。

Sora 基于 DALL·E 3 DCS（Descriptive synthetic captions；描述性合成标题）的描述性标题重述与 GPT 的标题扩写强化其语言理解能力。训练文本到视频生成系统需要大量带有相应文本标题的视频，OpenAI 应用 DALL·E 3，基于高度描述性的字幕器模型为训练集中的所有视频生成文本字幕，同时，OpenAI 还利用 GPT 将简短的用户提示转换为更长的详细字幕，以最终获得更优的视频输出结果。

报告共计：22页

海量/完整电子版/报告下载方式：公众号《人工智能学派》