(精选报告来源:幻影视界)
Sora 的成功源于 Diffusion Transformer 架构的引入,和过去多年高质量数据的积累。
从架构上看,视频生成模型的技术路线开始收敛,Sora 的 Diffusion Transformer 架构证实了有效 scale-up 也即是 增加算力能够对提升视频生成的精细度和效果,是视频生成领域的"GPT-3 时刻"。类似于 GPT-3 证明了更大的训练量、 模型参数量、Token 数量,训练效果越好。引入了 Transformer 的 Sora 也表现出了同样的趋势,OpenAI 进行了 32x 训练量和 1x、4x 训练量的对比,从结果上看,32x 训练量的生成效果远远强于 1x 和 4x 的生成效果。在 Sora 发布后 Google、Snap 也发布了采用类似技术的视频生成模型,确定了 Diffusion Transformer 的视频生成路线,并且算力的 需求会大大提升。
从数据上看,高质量的数据对视频生成模型的训练至关重要,Sora 利用自有工具增强训练数据集与提示工程。OpenAI 训练了专用的视频字幕模型来为视频生成详细描述,生成高质量的视频-字幕对,用于微调 Sora 以提高其指令跟随 能力。同时为了确保用户提示与训练数据中这些描述性标题的格式保持一致,Sora 执行了一个额外的提示扩展步骤, 即调用 GPT-4V 模型将用户输入扩展到详细的描述性提示。
视频生成模型的历史与现状
1.文生视频是个年轻的方向,最早能追溯到 15 年的基于 GAN 生成模型
文生视频是个年轻的方向,面临着多方面的独特挑战。主要有
1)计算成本高昂:确保帧 间空间和时间一致性需要大量的计算资源,导致训练成本高昂;视频信息的复杂性进一步 加剧了计算成本,需要更强大的计算能力来处理海量数据。
2)视频信息复杂:视频数据 形式多样,分辨率和比例各异,包含空间、时间、内容等多维信息;如何找到一种统一的 表示形式,以有效地进行大规模训练,是文生视频技术需要解决的关键问题。
3)缺乏高 质量数据集:现有的文生视频多模态数据集数量有限,且标注程度不够,难以满足模型训 练的需求。
4)视频描述的模糊性:如何用文本准确描述视频内容,是文生视频技术面临 的另一个难题,简短的文本提示难以完整描述视频,而复杂的描述又会增加模型的训练难 度。
2.GAN 和 VAE 时代
文生视频模型最早能追溯到 2015 年。早期研究主要使用基于 GAN(生成对抗网络)和 VAE (变分自编码器)的方法在给定文本描述的情况下自回归地生成视频帧 (如 Text2Filter 及 TGANs-C)。虽然这些工作为文生视频这一新计算机视觉任务奠定了基础,但它们的应 用范围有限,仅限于低分辨率、短距以及视频中目标的运动比较单一、孤立的情况。
3.TransformerBased
受文本 (GPT-3) 和图像 (DALL-E) 中大规模预训练 Transformer 模型的成功启发,文 生视频研究的第二波浪潮采用了 Transformer 架构。Phenaki、Make-A-Vide、NUWA、 VideoGPT 和 CogVideo 都提出了基于 Transformer 的框架,而 TATS 提出了一种混合方法, 从而将用于生成图像的 VQGAN 和用于顺序地生成帧的时间敏感 Transformer 模块结合起 来。在第二波浪潮的诸多框架中,Phenaki 尤其有意思,它能够根据一系列提示 (即一个 故事情节 ) 生成任意长视频。同样, NUWA-Infinity 提出了一种双重自 回归 (autoregressive over autoregressive) 生成机制,可以基于文本输入合成无限长度的 图像和视频,从而使得生成高清的长视频成为可能。
4.Diffusion Based
第三波文生视频模型浪潮主要以基于扩散的架构为特征。扩散模型在生成多样化、超现实 和上下文丰富的图像方面取得了显著成功,这引起了人们对将扩散模型推广到其他领域(如音频、3D ,最近又拓展到了视频) 的兴趣。这一波模型是由 Video Diffusion Models (VDM) 开创的,它首次将扩散模型推广至视频领域。然后是 MagicVideo 提出了一个在低 维隐空间中生成视频剪辑的框架,据其报告,新框架与 VDM 相比在效率上有巨大的提升。另一个值得一提的是 Tune-a-Video,它使用 单文本 - 视频对微调预训练的文生图模型, 并允许在保留运动的同时改变视频内容。随后涌现出了越来越多的文生视频扩散模型,包 括 Video LDM、Text2Video-Zero、Runway Gen1、Runway Gen2、Stable Video Diffusion 以及 NUWA-XL。
5.视频生成模型的前沿:把卷积网络卷出了 Diffusion Model
这些模型缺点比较明显,比如支持视觉数据的类别少、视频时间短、视频尺寸固定等。当 时还在 Meta 实习、现任 Sora 项目的负责人之一的 William Peebles 于 23 年 3 月发表的 《Scalable Diffusion Models with Transformers》中的 Diffusion Transformers (DiTs) 对新的视频生成路线起到了关键的作用。DiT 的主要工作是替换了 Stable Diffusion 中 的 UNet 为 Transformer,证明了在图像生成领域的 Scaling Law,也即是减少 patch size 增加参数量对生成图像有较大的积极影响。
Sora 在 DiT 图像生成的基础上拓展到了视频生成,能够生成多样化的视频和图像,解决 了先前方法在视频长度、尺寸和固定大小方面的限制,能够生成任意比例的 1 分钟 1080P 的高质量视频。Sora 没有公布详细的模型架构,后文中我们会对其架构进行逆向工程分 析。
6.国内的绝大多数文生视频模型还处于 Diffusion 阶段,研发机构也在快速跟进
国内已有超 15 家企业推出了视频生成工具,既包括字节、百度、阿里、腾讯等 6 家巨头, 也包括爱诗科技、生数科技、智象未来等 9 家创企。智东西观察发现,文生视频领域大 厂与创企各有领头羊,字节和 Morph Studio 在稳定性和成像质量方面表现出色。然而, 大部分产品仍处于测试阶段,存在临时下线、排队时间长、无独立站点等问题。此外,生 成视频效率低,2-4 秒视频的等待时间通常需要 3-5 分钟甚至更久。同时,现阶段文生视 频的运动程度普遍较低,多为平移式运动或镜头运动,且对于人手、动物等非现实场景, 大模型仍难以理解和生成。
目前已公开的国内视频生成模型还多数处于 Video Diffusion Models 阶段,还没有使用 Diffusion Transformer 架构的。国内公司和机构也在快速跟进,北大的 OpenSora 项目 已经立项,计划复现 Sora 的模型架构与生成效果;字节在 3 月也将对自研的视频生成工 具开启内测,鉴于字节已经拥有上万张计算卡的集群,并且原抖音 CEO 转向剪映业务,字 节的新的视频生成模型也值得期待。
大语言模型训练和推理对计算资源的需求分布不同
截止到 2024 年 3 月初,我们跟踪了国内外推出的大模型,可以发现模型机构和公司的竞 争在加剧,推出新的大模型的速度在加快。我们总结出以下几点趋势:
1)长上下文(Long-Context):最新的模型如 Gemini1.5 和 Kimi 支持到百万级别的 Token,对训练和推理时的内存容量和算力提出更高要求。
2)多模态(Multi-Modal):理解图片、视频、音频信息是大模型的确定趋势,这些信息 同样有这更大的 Token 数量,也会增大内存容量的需求。
3)MOE(Mixture-of-Experts):越来越多模型包括 Mixtral、Gemini1.5 和 Grok 在内的 模型在应用 GPT 的 MOE 提升效果。除了直接扩大参数规模,MOE 的多个子模型能够处理 不同问题,虽然也会增加参数数量,但是在推理时只调用部分子模型,增加计算效率。
对于大模型,其训练和推理过程中对计算资源的需求也大相径庭,其中训练时算力和网 络带宽的资源比较紧缺,推理分为两个过程,prefill 对算力和内存容量的需求比较紧 缺,decode 过程更需要内存带宽、内存容量和较低的网络延迟。
大语言模型训练时一次性对一整个句子每个 Token 进行下一个 Token 的预测,并计算所有 位置 Token 的 Loss 并逐步优化,可以并行计算,需要大规模的算力和集群,所以训练对 机器之间的网络带宽要求较高。
对算力需求的影响:推理时算力需求的增长大于内存速率需求的增长
Sora 和 GPT 的核心虽然都属于 Transformer,但是 Sora 的 DiT 和大语言模型在推理时的 逻辑不同,Diffusion 需要基于一个随机的 noise latent 矩阵按照多个时间步迭代生成, 每一步都在迭代细化 latent(图像/视频),使其更接近输入的提示词,这个步数在优化之 后能减少到约 20 Steps 即可产生算力与效果均衡的结果。
包括 GPT 在内的大语言模型是 Decoder-Only Transformer 架构,通过 Auto Regression 的方式预测下一个 Token,是 一个完全的访存密集型场景,推理时性能瓶颈在内存带宽。而 Sora 的 DiT 是一个 Encoder-Only Transformer 架构,推理的每一个 Step 时会输出全部长度的 Patch,一次 性生成全部长度的 Patch,对计算卡内存的访存次数要远小于 GPT,是一个计算密集型场 景。
高质量视觉模型的出现的应用和对行业的影响
视频模型的应用仍处于高速发展阶段,发布时间比较晚的应用,比如 CapCut 和 Krea 的访 问热度仍处在快速增长,较为成熟的应用比如 Runway 的热度也较为稳定。我们认为随着 以 Sora 为代表的视频扩散模型成为一项前沿技术,视频生成的质量会不断提升,它们在 不同研究领域和行业的应用也会继续加速,为从自动化内容生成到复杂决策过程等任务提 供了变革性的潜力。
我们认为,随着 Diffusion Transformer 类模型大量应用于图像及视频生成,推理需求将大幅增加,与 LLM 推理更需 要内存带宽的资源需求不同,视觉模型推理将对芯片本身算力和内存容量提出更高要求。
1.模型架构的大幅改变影响算力需求分布:目前的大语言模型和最新的视频生成模型均基 于 Transformer 架构,其训练过程对算力要求高,推理过程对内存芯片带宽要求较高,未 来模型架构可能会发生变化,对算力需求的分布亦会有影响。
2.算力速度发展不及预期:目前算力主要受限于芯片制程和互联技术的发展,随着摩尔定 律的逐渐失效,未来算力速度的发展可能会放缓,可能影响模型的训练和推理。
本文仅供参考,不代表我们的任何投资建议。【幻影视界】整理分享的资料仅推荐阅读,用户获取的资料仅供个人学习,如需使用请参阅报告原文。