「平替版 Sora」何时能追上？

作者：机器之能发布时间：2024-03-17

专题解读

事件：

随着 OpenAI 正式发布文生视频大模型 Sora，直接带动了国内外文生视频、文生图模型的热潮出现。Stability AI、Pika、阿里达摩院、腾讯、华为等国内外大厂先后推出自家生成模型。近期，华为诺亚方舟实验室发布了同样基于 DiT 架构的文生图模型 PixArt-Σ。

上月，OpenAI 正式发布文生视频大模型 Sora，因其生成效果惊艳，可以生成不同时长、长宽比和分辨率的视频和图像，且最多可以输出长达一分钟的高清视频，打开了文生视频的新格局。有人称，文生视频的 GPT 时刻已经到来。与此同时，据 a16z 统计，在 2023 年，文生视频领域发布相关工具与产品即达到了 21 种，且发布产品的多为初创企业。国内外的文生视频模型随着 Sora 的热潮频出，其他文生视频能否作为「Sora 平替版」追赶上 Sora？

平替模型们与 Sora 对比，效果如何？

以下整理了较为热门的国内外大厂的文生视频模型，从模型架构、模型创新点、技术特点、生成视频表现等维度进行了比对。[27] -[46]

1、Sora：由 OpenAI 开发的一款文本到视频生成模型，能够根据文本提示生成长达一分钟的高清视频。

① 架构方面，Sora 基于扩散模型和 Transformer 架构，通过将视频数据转换为时空 patches，从而实现对视频内容的生成。

② 技术特点方面，Sora 使用了时空 patches 作为 Transformer 的 tokens，patches 是从压缩后的潜在空间中提取的，代表了视频的时间和空间信息。

③ Sora 可以处理多种时长、长宽比和分辨率的视频和图像。

2、W.A.L.T（Window Attention Latent Transformer）：由斯坦福大学（Stanford University）、谷歌研究（Google Research）、佐治亚理工学院（Georgia Institute of Technology）开发的一款视频生成模型，除文本提示生成视频外，还可以将静态图像转换为动态视频。

① 架构方面，W.A.L.T 第一阶段使用因果编码器将视频和图像映射到统一的低维隐空间。第二阶段设计了一种新的 Transformer 块，包含自注意力层，这些层在非重叠、窗口限制的空间和时空注意力之间交替。

② 技术特点方面，W.A.L.T 采用了隐视频扩散模型（Latent Video Diffusion Models， LVDMs）的技术路径，结合了 Transformer 架构的优势。

③ W.A.L.T 模型能够从文本提示生成高分辨率、时间上连贯的逼真视频，并且能够将静态图像转换为动态视频，支持 3D 摄像机运动的视觉效果。

3、Zeroscope：由阿里达摩院 ModelScope 社区开发的一款文本到视频的生成模型，能够生成高达 1024×576 分辨率的高清视频。

① 架构方面，Zeroscope 由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间的 3 个子网络组成。

② 技术特点方面，Zeroscope 基于 17 亿参数的文生视频大模型改造，采用 Unet3D 结构的扩散模型。

4、Stable Diffusion 3：由 Stability AI 开发的一款基于 Transformer 的文本到图像生成模型。

① 架构方面，Stable Diffusion 3 采用 MMDiT 架构，使用单独的权重组处理图像和文本模态，实现双向信息流动。同时，采用 Rectified Flow 技术，通过直线连接数据和噪声，简化采样过程......

表：文生视频模型表现对比

「平替模型们」离追上 Sora 还有多远？

在 Sora 正式发布之后，出现了关于国内外其他文生视频模型能否追赶上 Sora 的探讨。目前，国内科技大厂仍停留在内部探索、研发 Demo 的阶段。目前，普遍认为算法实现、算力和数据是导致「复现」Sora 困难的主要因素。

1、技术方面，OpenAI 并未公布 Sora 的技术细节，路径模糊。

① 出门问问创始人李志飞认为，目前仍处于早期，技术没有收敛，各种视频相关模型的分类或讲法比较混乱。OpenAI「狡猾」，Sora 的技术报告只是很笼统地引用了几篇谷歌的文章，但没说到底用了什么，怎么用的，以及做了哪些创新。[16]

② 同样也有类似观点。360 集团创始人周鸿祎认为 OpenAI 最强的能力其一是找方向，另一个是工程化思路非常严谨。因此，现在重要的是需要把工程化思路探索出来。[17]

2、算力方面，Sora 坚守了 OpenAI 的核心理念，即 Scaling Law，「大力出奇迹」，随着训练计算量增加，视频质量显著提升。而大模型训练数据量的剧增，意味着需要强大的算力支持，而初创企业难以实现。

① 有人工智能算法工程师分析......

Sora 之外还有有哪些值得关注的文生视频模型？这些模型与 Sora 有何区别？「平替模型们」为何追不上 Sora？为什么都在用 DiT？视频生成是如何从 GAN 演进到 DiT 的？... 查看完整解读请前往「机器之心PRO」业内通讯 · 2024年度#Week 11

本期完整版通讯含 3个专题解读 + 31项 AI & Robotics 赛道要事收录

1. Figure 用的 VLM 和「机器人 LLM」是同一回事吗？

Figure、Covariant 和谷歌都发什么成果了？Sergey Levine 也创业了？Figure 01 用了哪些技术？Covarian 的 RFM-1 是基于 LLM 的吗？...