人工智能专题：Sora开启创意领域iPhone时刻(附下载)

作者：烟树晚雁发布时间：2024-02-28

今天分享的是人工智能系列深度研究报告：《人工智能专题：Sora开启创意领域iPhone时刻》。

（报告出品方：国金证券）

报告共计：22页

海量/完整电子版/报告下载方式：公众号《人工智能学派》

Sora 问世：OpenAI 发布视频生成大模型，剑指物理世界通用模拟工具

2 月 15 日，OpenAI 发布视频生成大模型 Sora。OpenAI 基于 Transformer 架构的 Sora 大模型能够生成长达一分钟的高清视频，同时可以指定视频时间长度、分辨率与宽高比。 OpenAI 研究团队认为，Sora 的问世一定程度上意味着扩展视频生成模型是构建物理世界通用模拟器的重要潜在途径。

技术路径：基于 Patches 视觉特征标记的 Diffusion Transformer 模型

Sora 取法 Tokens 文本特征标记，是基于 Patches 视觉特征标记的 Diffusion Transformer 模型。OpenAI 研究团队从 LLM 中汲取灵感，认为 LLM 范式的成功在一定程度上得益于 Tokens 的使用，Tokens 统一了代码、数学和各种自然语言的文本模式。类似于 LLM 范式下的 Tokens 文本标记，Sora 创新性地使用了 Patches（a part of something marked out from the rest by a particular characteristic；视觉特征标记）。鉴于 Patches 之前已被证明是视觉数据模型的有效表示，OpenAI 研究团队进一步研发发现 Patches 是一种高度可扩展且有效的表示，可以被用于在不同类型的视频和图像上训练生成模型：

 Step1 将视觉数据转化为 Patches（Turning visual data into patches）：将视频、图像等视觉数据压缩至低维的潜在空间中，并将其分解为带有时空（Spacetime）特征的 Patches（若为图像，则对空间特征进行分解），从而将视觉数据转换为 Patches。

 Step2 构建视频压缩网络（Video compression network）：OpenAI 训练的视频压缩网络将原始视频作为输入，并输出在时间和空间上都经过压缩的潜在特征。Sora 在这个压缩的潜在空间中接受训练并生成视频。OpenAI 还训练了一个相应的解码器模型，该模型将生成的潜在对象映射回像素空间。

 Step3 提取视觉数据的时空潜在特征（Spacetime Latent Patches）：给定一个压缩的输入视频，提取一系列时空特征 Patches（此方案也适用于图像，因为图像只是单帧视频）。基于 Patches 的表示使 Sora 能够利用不同分辨率、视频时间和宽高比的视频和图像进行训练。在推理时，可以通过在适当大小的网格中排列随机初始化的 Patches 来控制生成的视频的大小。

 Step4 推广 Transformer 模型到视频生成领域（Scaling transformers for video generation）：Sora 是一个 Diffusion Transformer 模型，给定输入的嘈杂（noisy） Patches（以及文本提示等条件信息），它被训练来预测原始的干净（clean）Patches，继而生成高清视频。随着训练计算量的提高，样本质量也明显提高。

算法实现：Patches 实现更灵活的采样+更优化的构图

Why Patches？——更灵活的采样+更优化的构图。

 从训练角度而言，基于 Patches 视觉特征标记对原生视频进行采样扩大了可用样本的规模且省去了标准化样本的步骤。对于不同分辨率、视频长度和宽高比的视频，以往常见的做法是将视频剪辑、调整大小或修剪到标准格式（例如：分辨率为 256x256 的 4 秒视频），而 Sora 则基于 Patches 视觉特征标记对原生视频进行采样（Sora 可对宽屏 1920x1080p 视频、垂直 1080x1920p 视频以及介于两者之间的所有视频进行采样）。

 从推理角度而言，基于原生视频训练的模型在生成新视频方面改善了构图和取景。如下图所示，左下角为采样标准化样本生成的视频构图，叙事主体潜水员被较为生硬地分割开，右下角为采样原生样本生成的视频构图，叙事主体潜水员较为完整地出现在视频的中间位置。

Sora 基于 DALL·E 3 DCS（Descriptive synthetic captions；描述性合成标题）的描述性标题重述与 GPT 的标题扩写强化其语言理解能力。训练文本到视频生成系统需要大量带有相应文本标题的视频，OpenAI 应用 DALL·E 3，基于高度描述性的字幕器模型为训练集中的所有视频生成文本字幕，同时，OpenAI 还利用 GPT 将简短的用户提示转换为更长的详细字幕，以最终获得更优的视频输出结果。

报告共计：22页

海量/完整电子版/报告下载方式：公众号《人工智能学派》

人工智能专题：Sora开启创意领域iPhone时刻(附下载)

Sora 问世：OpenAI 发布视频生成大模型，剑指物理世界通用模拟工具

技术路径：基于 Patches 视觉特征标记的 Diffusion Transformer 模型

算法实现：Patches 实现更灵活的采样+更优化的构图

推荐体验

相关资讯

计算机孟灿|计算机深度研究：Sora开启创意领域iPhone时刻

人工智能专题：2023年A-Z 教育领域人工智能指南(附下载)

人工智能专题：人工智能与未来工作（附下载）

人工智能专题：人工智能治理联盟：简报系列（附下载）

AIGC专题：视频生成模型 Sora 发布再度引爆人工智能市场（附下载）

近期资讯

唐源电气：智能上盖机器人完成研发并签订销售合同

德方纳米：成功研发四大核心技术及两项创新技术

杭州国齐电力智能设备取得具有防护结构的开关状态显示器专利，避免潮湿气体进入显示器内部造成元件受损

五洲融媒体科技取得防摔型遥控器专利，使遥控器更耐用

德尔股份：产品应用于机器人领域正研究推进

本川智能：持续关注6G技术发展并提升产品性能

中山市昶盈智能科技取得稳压器通风散热结构专利，避免线圈过热造成安全隐患

北京伏锐电力取得用于 SVG 设备散热的空调散热装置专利，提高空调本体对 SVG 设备散热的工作效率

佛山三联仕智控技术有限公司取得工业仪表自动化降温控制装置专利，提高降温效率

智元宣布开源机器人数据集

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响