Sora背后的关键模型，通往实现AGI的突破？

作者：华尔街见闻发布时间：2024-03-01

横空出世的Sora，以碾压其他文生视频模型的姿态，让全球影视行业从业者瑟瑟发抖，继续为狂飙的AI热潮注入了一针强心剂，也进一步巩固了OpenAI作为GenAI尖端技术领头羊的身份。

不过，驱动Sora的技术，其实是早早几年前就已经出现在人工智能研究领域的Diffusion Transformer架构。

这一架构最出色的地方就在于，它可以让AI模型的规模，突破以往的技术限制，即参数规模越大、训练时长越长、训练数据集越大，生成视频的效果更好。Sora就是这样一个“大力出奇迹”的产物。

什么是Diffusion Transformer

在机器学习中，有两个关键概念：1）Diffusion；2）Transformer。

首先来说Diffusion，大多数可以生成图像、视频的AI模型，包括OpenAI的DALL-E3，都依赖于一种叫做Diffusion的过程来输出图像、视频、音频等内容。

Diffusion的工作原理，是通过连续添加高斯噪声来破坏训练数据（前向过程，forward），然后通过反转这个噪声（逆向过程，reverse），来学习恢复数据。即首先将随机采样的噪声传入模型中，通过学习去噪过程来生成数据。

在模型的逆向过程中，diffusion需要依赖一个叫做U-Net的引擎，来学习估计要去除的噪声。但U-Net非常复杂，其专门设计的模块会大大降低diffusion生成数据的速度。

Transformer则是目前主流LLM如GPT-4、Gemini等模型背后的技术基础。它可以取代U-Net，提高Diffusion过程的效率。Transformer有着独特的“注意力机制”。对于每一条输入数据（如Diffusion中的图像噪声），Transformer都会权衡其他每一条输入（图像中的其他噪声）的相关性，并从中学习，生成结果（图像噪声的估计值）。

注意力机制不仅使Transformer比其他模型架构更简单，而且使架构可并行化。简单来说，也就是说可以训练出越来越大的Transformer模型，同时显著提高计算能力。

Diffusion Transformer这个概念由纽约大学计算机教授谢赛宁与William Peebles（现任OpenAI Sora的联合主管）共同提出。

谢赛宁教授在接受媒体采访时表示：

Transformer对Diffusion过程的贡献类似于引擎升级。Transformer的引入......标志着可扩展性和有效性的重大飞跃。这一点在Sora等模型中体现得尤为明显，这些模型得益于对海量视频数据的训练，并利用更高的模型参数来展示Transformer在大规模应用时的变革潜力。

Sora是“大力出奇迹”的产物

根据华福证券的分析，Sora生成视频的过程，大致如下：

视频编码：VisualEncoder将原始视频压缩为低维潜在空间，再将视频分解为时空patches后拉平为系列视频token以供transformer处理。

加噪降噪：在transfomer架构下的扩散模型中，时空patches融合文本条件化，先后经过加噪和去噪，以达到可解码状态。

视频解码：将去噪后的低维潜在表示映射回像素空间。

可以看到，Sora的主要特点就是采用transformer替代了U-Net引擎。分析师施晓俊认为，Sora替换U-Net为DiT的transformer作为模型架构，具有两大优势：

1）Transformer可将输入视频分解为3Dpatch，类似DiT将图片分解为图块，不仅突破了分辨率、尺寸等限制，而且能够同时处理时间和空间多维信息；

2）Transformer延续了OpenAI的ScalingLaw，具有较强的可拓展性，即参数规模越大、训练时长越长、训练数据集越大，生成视频的效果更好。例如，Sora随着训练次数的增加，小狗在雪地里的视频质量显著提升。

然而，Transformer最大的缺点就是——贵。

其全注意力机制的内存需求会随输入序列长度而二次方增长，因此高分辨率图像处理能力不足。在处理视频这样的高维信号时，Transformer的增长模式会让计算成本变得非常高。

换句话说，Sora的诞生，是背靠微软的OpenAI疯狂烧算力的结果。相比于U-Net架构，Transformer突显ScalingLaw下的“暴力美学”，即参数规模越大、训练时长越长、训练数据集越大，生成视频的效果更好；此外，在Transformer大规模训练下，逐步显现出规模效应，迸发了模型的涌现能力。

Sora背后的关键模型，通往实现AGI的突破？

推荐体验

相关资讯

Agent（智能体）：通往AGI的必经之路

通往AGI的道路从未如此清晰-Agent2025?

AI大神狂喷Sora，力推世界模型，到底谁才是实现AGI的正解？

"文心一言"背后，藏着中国科技向上突破的关键秘密

OpenAI Sora负责人最新访谈：未来扩大Sora的规模，AGI就会实现

近期资讯

雷军刚刚官宣！与蔚来、小鹏、理想合作

老年机使用指南：简单开机及基本功能技巧分享

腾讯QQ打击网络水军四季度处置违规内容超4.7万条

“小新”上岗！焦作高新区“AI智能+政务服务”开启新模式

AI全景制作舞台剧《西境千年》在甘肃兰州上演

中国移动江苏：2025 年 1 月 1 日起，全面取消来电显示功能费用

福龙马：已打造出全球首款基于滑板底盘开发的智能清扫机器人

交通运输部东海航海保障中心召开2024年江苏辖区新闻发布会

微信新功能“蓝包”正进行灰度测试，业内：或利好小程序电商业务

企业如何深挖“数据富矿”？事关用数创新的新政策来了

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响