当前位置:首页|资讯|OpenAI|Sora|DALL·E

OpenAI Sora专题:Transformer扩展优势凸显,视频理解与生成能力提升

作者:报告派研读发布时间:2024-03-06

原标题:OpenAI Sora专题:Transformer扩展优势凸显,视频理解与生成能力提升

报告出品方:西南证券

以下为报告原文节选

------

1 从Sora看文生视频模型的技术路径

1.1.1 发展现状:多模态发展已成共识,视觉生成热潮逐步兴起

从模态发展情况来看:AI大模型的生成和理解能力从单模态向多模态发展已成社会共识。当前,大语言模型在文本端的应用趋于成熟,图像和视频生成技术快速发展,AI视觉浪潮正加速到来。

从市场催化节奏来看:受文本端杀手级应用ChatGPT(于22年11月推出)和图像生成代表应用Midjourney V5(于23年3月推出)的影响,文本端和图像生成应用已于2023年迎来市场催化。

2024年2月16日,OpenAI发布Sora文生视频,引发市场对视频生成领域的高度关注。未来,随着模型的持续迭代和相关应用的涌现,视频生成领域有望在24年迎来热潮。

1.1.2 发展现状:文本端技术路径收敛于LLM,视觉生成领域仍在探索

从技术路径收敛情况来看:1)文本生成方面,在OpenAI GPT系列模型的引领下,大语言模型(LLM—large language model)已成为当前文本端的确定性路径。2)多模态方面,图像和视频生成的技术路径均未收敛。图像和视频生成主要包括两大路径:扩散模型(Diffusion Model)和自回归模型(Autoregressive Model),其中,扩散模型是当前主流,而基于transformer架构的自回归模型具备较大潜力,扩散模型也逐步呈现结合Transformer的发展趋势。

1.2.1 路径对比:扩散模型占据主流,自回归模型潜力可期

扩散模型:成为文生图和文生视频领域主流技术路径的核心原因 à Available:基于扩散的Stable Diffusion模型选择开源,使广大开发者能够在此基础上运用和优化扩散模型,其公开可用的特性使之成为图像和视频生成领域的主流基础模型;

自回归模型:在视觉生成领域具备较大发展潜力的主要原因 à Scalable:基于transformer的自回归模型相较于扩散模型更适合、更容易做规模扩展(scale up)。目前,扩散模型的参数规模通常在billion(十亿)级别,而自回归模型得益于transformer架构,参数具备更大的扩展潜力,图像和视频领域的自回归模型有望借鉴transformer在文本领域LLM的经验,通过对不同模态进行跨模态、规模化的建模,实现“大力出奇迹”。

1.2.1 路径对比:扩散模型占据主流,自回归模型潜力可期

从图像生成模型发展顺序来看:GAN出现最早,其次是基于language model的图像生成模型(2020年6月OpenAI提出ImageGPT),最 后 是 基 于 diffusion 技 术 的 扩 散 模 型。

OpenAI于2021年5月提出在扩散过程中使用显式分类器进行引导,展示出扩散模型的强大潜力,从此打败此前在图像生成领域统治多年的 GAN 模 型 ;而后受益于 Stable Diffusion开源,扩散模型逐步成为图像生成领域的主流模型。

1.2.2 扩散模型:发展历程

扩散模型持续迭代,助力应用崛起。2020年,DDPM的提出标志着基础扩散模型的出现;21年5月OpenAI发表论文《Diffusion Models Beat GANs on Image Synthesis》,标志扩散模型打败GAN;2023年,以Midjourney、Adobe Firefly等应用涌现,图像生成领域热度高涨。

1.2.2 扩散模型:基本原理

扩散模型(Diffusion Models)基本原理:扩散模型包括前向和反向两个扩散过程,扩散过程是指的对数据逐渐增加高斯噪音直至数据变成随机噪音的过程。

前向扩散过程(Forward Diffusion Process):指给图片不断添加噪声的过程,前向过程逐步向真实图片添加噪声最终得到一个纯噪声。对于训练集中的每张图片,都能生成一系列的噪声程度不同的加噪图片;在训练时,不同程度的噪声图片+生成它们所用的噪声是实际的训练样本。

反向扩散过程(Reverse Diffusion Process):指给图片去噪的过程,逐渐还原真实数据或样本。

1.2.2 扩散模型:两次关键迭代

扩散模型第一次关键迭代:在像素空间(Pixel Space)之外引入潜在空间(Latent Space)。扩散模型最初是基于像素空间的Pixel Diffusion,需要处理高分辨率图像等高维(high dimensional)数据,导致模型的处理速度较慢。2021年12月,论文《High-Resolution Image Synthesis with Latent Diffusion Models》发表,在扩散模型中引入潜在空间,标志着扩散模型第一次关键迭代。

Latent Diffusion相较于Pixel Diffusion的改进:Latent Diffusion的基本思想是首先将高维数据降维至feature,再在feature上进行diffusion,完成后将特征空间最后投射至图像空间。因此,Latent Diffusion通过将数据处理成低维(low dimensional)数据(图像的latent space比pixel space更小),且更加关注数据的重要语义位,能够更好地在“降低复杂度”和“保留细节度”之间进行平衡,最终使模型的计算效率更高。

扩散模型第二次关键迭代:在Latent Diffusion基础上将U-Net架构转换成Transformer。扩散模型中的经典架构是U-net网络,大多数扩散模型会基于U-Net结构进行一些变体,U-Net架构主要用于接收“带噪”的输入并预测噪声,以实现“去噪”。2023年3月,Meta发布论文《Scalable Diffusion Models with Transformers》,简称DiT(Diffusion Transformer),将U-Net架构转换成Transformer架构,代表扩散模型的第二次迭代。

Transformer架构相较于U-Net架构的优点:Transformer架构scalability能力更强、更适合做生成。未来,在扩散模型的技术路线中,更多地结合Transformer架构将成为一大重要趋势。

1.2.3 自回归模型:基本原理

自回归模型(Autoregressive Models)基本原理:在数学模型和算法中,自回归模型的核心思想是基于同一变量的历史值预测未来值。自回归作为一种时间序列模型,通过使用以前时间步长(previous time steps)的观测值作为回归方程的输入,来预测下一个时间步长(next time step)的值。

自回归模型具备单向性特征,即前向性或后向性。在自回归语言模型中,通过利用上(下)文词,估计文本语料库的概率分布,预测下(上)一个词,适用于自然语言的生成式任务,如摘要、翻译和抽象问答,并在长文本生成方面取得较大成功。

1.2.3 自回归模型:代表模型

自回归文生图代表模型——Parti:2022年6月22日,谷歌发表论文《Scaling Autoregressive Models for Content-Rich Text-to-Image Generation》,并推出Parti模型(Pathways Autoregressive Text-to-Image model)。该模型受LLM启发,将文本到图片的生成视为序列到序列的建模问题,使用Encoder+Decoder的Transformer架构对文本进行编码以及生成图像Token序列,并将参数量扩展到20B,以获得更好的图像-文本一致性、提升图像生成质量。

自回归文生视频代表模型——VideoPoet:2023年12月21日,谷歌发表论文《VideoPoet: A Large Language Model for Zero-Shot Video Generation》,并推出VideoPoet模型。该模型强调LLM在视频生成领域依然可以发挥重要作用,能够在动作生成上能够保持较好的一致性、在大范围移动状态下能够保持较好的连贯性,并实现多任务的一站式处理。

1.2.3 自回归模型:Tokenizer的重要性

Tokenizer将文本转化为tokens并建立互联,帮助模型对视觉生成任务的理解。Tokenizer是指将文本或序列转化为标记(tokens)的工具或算法。在自然语言领域,Tokenizer通常将文本转换成tokens;而在视觉领域,visual tokenizer通常将图像转化为patches。在生成模型中,Tokenizer的作用是将连续的输入序列转换为离散的tokens,并建立tokens之间的相关性,使tokens可以更好地被模型理解和处理,帮助模型更准确地完成任务,因此Tokenizer是视觉生成模型中的重要环节。

Image Tokenizer—ViT-VQGAN:2022年6月5日,谷歌发表论文《Vector-quantized Image Modeling with Improved VQGAN》并提出分词器ViT-VQGAN,而后将其用于Parti模型中,将图片编码为离散token序列,再用其重建图片token序列已生成高质量图像。

Video Tokenizer—MAGVIT-v2:2023年10月9日,谷歌发表论文《Language Model Beats Diffusion: Tokenizer is key to visual generation》,并提出分词器MAGVIT-v2(Masked Generative Video Transformer),强调Tokenizer对视觉生成的重要性,指出一个更好的Tokenizer在接入语言模型后有望获得比扩散模型更好的效果。

1.3 未来趋势:transformer优势凸显,模型构建有望呈现多种方式

Transformer扩展能力突出,扩散模型与其持续结合。当前,为构建性能更优、效率更高的图像和视频生成模型,已出现多种结合Diffusion Model和Transformer架构的文生视频模型。例如,谷歌于2023年12月发布与李飞飞老师和其学生合作的文生视频模型——W.A.L.T、OpenAI于2024年2月发布的文生视频模型——Sora。扩散模型通过引入Transformer架构,发挥其扩展(scaling)能力,且transformer已在语言建模、计算机视觉和图像生成等多个领域展示其显著的扩展能力,未来同样有望在视频生成上发挥更大作用。随着技术研究的不断深入,各家可能会利用每个架构最擅长的部分,呈现多种方式构建模型,扩散模型和transformer架构有望持续结合。

2 从Sora看文生视频模型的最新能力

2.1.1 团队背景:研发实力突出,优秀人才聚集

研发团队年轻,优秀人才聚集。根据OpenAI Sora技术报告,本篇报告作者共13位。其中,Aditya Ramesh、Tim Brooks和Bill Peebles是团队的核心成员,Aditya作为图像生成模型DALL-E的提出者,主导2021年至2023年DALL-E模型的三次迭代,相关领域研究深入,且团队成员优秀,包括众多年轻人才,较高的人才密度是打造优质模型的基础。

2.1.2 时间进程:AGI技术积淀已久,视觉生成领域加速推进

前期工作积累深厚,研发进程加速推进。Sora模型的诞生离不开GPT和DALL·E系列模型的积淀,GPT语言模型从2018年开始迭代,第一代DALL·E文生图模型于2021年1月正式发布论文,优质基座模型和文本-图像配对的优质数据集奠定前期基础,Sora模型最终于2024年2月16日对外宣布。

2.2.1 强大的理解能力:领会并细化提示词,学习及模拟物理世界

为什么Sora可以较好地理解Prompt提示词?

优秀的基座模型:DALL·E帮助文本-视频进行高质量配对+GPT用于Prompt的细化处理。GPT、DALL·E模型迭代至今,已呈现对语言、视觉数据和世界较强的理解能力。

① DALL·E帮助文本和视频的高质量配对:OpenAI技术报告指出,研发团队将DALL·E 3的文字描述技术应用到视频训练上,训练出一个较强的文字描述模型,并在训练Sora时通过使用大量的与视频相对应的高准确度描述性文字,提高文生视频的质量。

② GPT用于改写和细化Prompt:团队利用GPT系列模型将简短的Prompt转换成详细的文字描述,将Prompt详细化、细节化,用于模型训练中,使Sora能够更好地遵循用户提示并准确地生成视频。

2.2.1 强大的理解能力:领会并细化提示词,学习及模拟物理世界

争议:Sora是否能够理解事物在物理世界中的存在方式?

Sora在一定程度上展示出其可能具备理解物理现象和物理规律的能力。根据OpenAI官网的展示视频,两艘海盗船在咖啡的波浪中起伏,咖啡的流动、船只周围的泡沫都十分自然,可以看出,尽管该场景实际上不存在于现实世界,但Sora依然可以根据流体力学等物理规则实现Prompt的要求。

Nvidia高级研究科学家Jim Fan观点:Sora很可能是一个基于数据驱动的物理引擎,是对许多世界的真实或幻想的模拟,并且模拟渲染直观的物理、推理和基础。Sora必须学习一些隐式形式的文本到3D的转换、光线追踪渲染和物理规则,以便尽可能准确地对视频像素进行建模。

Transformer架构下的Scaling law对理解物理现象和规则有望持续有效。当模型变大、数据量更多、视觉场景的分辨率越来越高,Sora所理解的规则的颗粒度将会越来越细,对物理现象和规律的把控越来越精准,并支持更长上下文的学习,使视频在更长的时间维度下做到一致与合理。

2.2.1 强大的理解能力:领会并细化提示词,学习及模拟物理世界

争议:Sora是否能够理解事物在物理世界中的存在方式?

Sora在理解物理世界方面仍存在缺陷。OpenAI Sora技术报告指出,Sora当前仍存在一些局限,如,不能准确地模拟许多基本交互的物理现象,尚不能对所有情况进行完全准确的建模。

Transformer架构和扩散模型在学习和模拟物理世界的过程中存在一些技术限制:1)相关性vs因果律:transformer可以建立tokens间的强相关性,但相关性不等于因果关系,Sora模型生成的视频可以在帧与帧之间做到较好的连贯性,但不意味着符合因果逻辑,所以在“奶奶吹蜡烛”的展示视频中,画面十分连贯,却在吹完蜡烛后火苗并没有熄灭。2)稳恒态vs临界态:Sora所用的扩散模型适合学习和生成稳定状态下的物体,但是较难理解和识别物体发生显著变化时的临界状态,所以在“玻璃杯摔倒”的展示视频中,杯子摔倒没有出现骤然破碎的状态。

2.2.1 强大的理解能力:领会并细化提示词,学习及模拟物理世界

争议:Sora是否能够理解事物在物理世界中的存在方式?

Meta V-JEPA模型:2024年2月14日,Meta发表论文《Revisiting Feature Prediction for Learning Visual Representations from Video》并推出V-JEPA模型(Video Joint Embedding Predictive Architectures)。不同于视频生成模型Sora,V-JEPA模型通过学习图像和视频的表示,主要用于预测视频缺失的部分或者被遮住的部分,目标是希望从内在学习并理解物理世界的概念。

Yann LeCun观点:大多数根据提示生成的逼真的视频并不表明模型能够理解物理世界。生成模型与世界模型的因果预测非常不同。对于生成模型来说,可信视频(plausible videos)的空间非常大,因此只需生成一个样本即可算作成功;而一个真实视频的合理延续(plausible continuations of a real video)的空间要小得多,生成一个有代表性的块是一个更难的任务,特别是有条件限制时。

--- 报告摘录结束 更多内容请阅读报告原文 ---

报告合集专题一览 X 由【报告派】定期整理更新

(特别说明:本文来源于公开资料,摘录内容仅供参考,不构成任何投资建议,如需使用请参阅报告原文。)

精选报告来源:报告派

科技 / 电子 / 半导体 /

人工智能 | Ai产业 | Ai芯片 | 智能家居 | 智能音箱 | 智能语音 | 智能家电 | 智能照明 | 智能马桶 | 智能终端 | 智能门锁 | 智能手机 | 可穿戴设备 |半导体 | 芯片产业 | 第三代半导体 | 蓝牙 | 晶圆 | 功率半导体 | 5G | GA射频 | IGBT | SIC GA | SIC GAN | 分立器件 | 化合物 | 晶圆 | 封装封测 | 显示器 | LED | OLED | LED封装 | LED芯片 | LED照明 | 柔性折叠屏 | 电子元器件 | 光电子 | 消费电子 | 电子FPC | 电路板 | 集成电路 | 元宇宙 | 区块链 | NFT数字藏品 | 虚拟货币 | 比特币 | 数字货币 | 资产管理 | 保险行业 | 保险科技 | 财产保险 |


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1