今天分享的是人工智能系列深度研究报告:《人工智能专题:Sora开启创意领域iPhone时刻》。
(报告出品方:国金证券)
报告共计:22页
海量/完整电子版/报告下载方式:公众号《人工智能学派》
2 月 15 日,OpenAI 发布视频生成大模型 Sora。OpenAI 基于 Transformer 架构的 Sora 大模型能够生成长达一分钟的高清视频,同时可以指定视频时间长度、分辨率与宽高比。 OpenAI 研究团队认为,Sora 的问世一定程度上意味着扩展视频生成模型是构建物理世界 通用模拟器的重要潜在途径。
Sora 取法 Tokens 文本特征标记,是基于 Patches 视觉特征标记的 Diffusion Transformer 模型。OpenAI 研究团队从 LLM 中汲取灵感,认为 LLM 范式的成功在一定程度上得益于 Tokens 的使用,Tokens 统一了代码、数学和各种自然语言的文本模式。类似于 LLM 范 式下的 Tokens 文本标记,Sora 创新性地使用了 Patches(a part of something marked out from the rest by a particular characteristic;视觉特征标记)。鉴于 Patches 之前已被证明是视觉数据模型的有效表示,OpenAI 研究团队进一步研发发现 Patches 是一种高度可扩 展且有效的表示,可以被用于在不同类型的视频和图像上训练生成模型:
Step1 将视觉数据转化为 Patches(Turning visual data into patches):将视频、图 像等视觉数据压缩至低维的潜在空间中,并将其分解为带有时空(Spacetime)特征 的 Patches(若为图像,则对空间特征进行分解),从而将视觉数据转换为 Patches。
Step2 构建视频压缩网络(Video compression network):OpenAI 训练的视频压缩 网络将原始视频作为输入,并输出在时间和空间上都经过压缩的潜在特征。Sora 在 这个压缩的潜在空间中接受训练并生成视频。OpenAI 还训练了一个相应的解码器模 型,该模型将生成的潜在对象映射回像素空间。
Step3 提取视觉数据的时空潜在特征(Spacetime Latent Patches):给定一个压缩 的输入视频,提取一系列时空特征 Patches(此方案也适用于图像,因为图像只是单 帧视频)。基于 Patches 的表示使 Sora 能够利用不同分辨率、视频时间和宽高比的 视频和图像进行训练。在推理时,可以通过在适当大小的网格中排列随机初始化的 Patches 来控制生成的视频的大小。
Step4 推广 Transformer 模型到视频生成领域(Scaling transformers for video generation):Sora 是一个 Diffusion Transformer 模型,给定输入的嘈杂(noisy) Patches(以及文本提示等条件信息),它被训练来预测原始的干净(clean)Patches, 继而生成高清视频。随着训练计算量的提高,样本质量也明显提高。
Why Patches?——更灵活的采样+更优化的构图。
从训练角度而言,基于 Patches 视觉特征标记对原生视频进行采样扩大了可用样本 的规模且省去了标准化样本的步骤。对于不同分辨率、视频长度和宽高比的视频,以 往常见的做法是将视频剪辑、调整大小或修剪到标准格式(例如:分辨率为 256x256 的 4 秒视频),而 Sora 则基于 Patches 视觉特征标记对原生视频进行采样(Sora 可 对宽屏 1920x1080p 视频、垂直 1080x1920p 视频以及介于两者之间的所有视频进 行采样)。
从推理角度而言,基于原生视频训练的模型在生成新视频方面改善了构图和取景。如下图所示,左下角为采样标准化样本生成的视频构图,叙事主体潜水员被较为生硬地分割开,右下角为采样原生样本生成的视频构图,叙事主体潜水员较为完整地出现在视频的中间位置。
Sora 基于 DALL·E 3 DCS(Descriptive synthetic captions;描述性合成标题)的描述 性标题重述与 GPT 的标题扩写强化其语言理解能力。训练文本到视频生成系统需要大量 带有相应文本标题的视频,OpenAI 应用 DALL·E 3,基于高度描述性的字幕器模型为训 练集中的所有视频生成文本字幕,同时,OpenAI 还利用 GPT 将简短的用户提示转换为 更长的详细字幕,以最终获得更优的视频输出结果。
报告共计:22页
海量/完整电子版/报告下载方式:公众号《人工智能学派》