当前位置:首页|资讯|人工智能|Sora

人工智能行业AI模型系列报告:从世界模型看算力需求变化(附下载)

作者:魏子轩发布时间:2024-04-03

原标题:人工智能行业AI模型系列报告:从世界模型看算力需求变化(附下载)

今天分享的是行业报告:《人工智能行业AI模型系列报告:从世界模型看算力需求变化》

(内容出品方:国金证券)

报告共计:20页

核心观点

Sora 是第一个表现出"涌现"能力的视频生成模型:随着模型规模增大而出现“理解世界”的能力。虽然许多 LLM,如 ChatGPT 和 GPT-4,表现出涌现能力,但在 Sora 出现之前,展示类似能力的视觉模型一直很少。根据 Sora 的技术 报告,它是第一个表现出确认的涌现能力的视觉模型,标志着计算机视觉领域的一个重要里程碑。

Sora 的成功源于 Diffusion Transformer架构的引入,和过去多年高质量数据的积累。

从架构上看,视频生成模型的技术路线开始收敛,Sora的 Diffusion Transformer 架构证实了有效 scale-up 也即是 增加算力能够对提升视频生成的精细度和效果,是视频生成领域的"GPT-3时刻"。类似于GPT-3证明了更大的训练量、 模型参数量、Token 数量,训练效果越好。引入了 Transformer 的 Sora 也表现出了同样的趋势,OpenAI 进行了 32x 训练量和 1x、4x 训练量的对比,从结果上看,32x 训练量的生成效果远远强于 1x 和 4x 的生成效果。在Sora 发布后 Google、Snap 也发布了采用类似技术的视频生成模型,确定了 Diffusion Transformer 的视频生成路线,并且算力的 需求会大大提升。

从数据上看,高质量的数据对视频生成模型的训练至关重要,Sora 利用自有工具增强训练数据集与提示工程。OpenAI 训练了专用的视频字幕模型来为视频生成详细描述,生成高质量的视频-字幕对,用于微调 Sora 以提高其指令跟随 能力。同时为了确保用户提示与训练数据中这些描述性标题的格式保持一致,Sora 执行了一个额外的提示扩展步骤, 即调用 GPT-4V 模型将用户输入扩展到详细的描述性提示。

我们认为,随着Diffusion Transformer类模型大量应用于图像及视频生成,推理需求将大幅增加,与 LLM 推理更需 要内存带宽的资源需求不同,视觉模型推理将对芯片本身算力和内存容量提出更高要求。Sora 的 DiT 和大语言模型 在推理时的逻辑不同,Diffusion 需要约 20 Steps 优化过程,每次均是计算的完整的 patch,访存需求也会大大下降, 从 LLM 推理的访存密集型场景转变成算力密集型场景。

Sora 高质量的视频生成对影视和游戏行业的影响是最直接而深远的,降低制作门槛并且很有可能重塑影视和游戏制 作的流程与格局。高质量的视频生成对于影视行业的工作流会有深远的影响,前期可以替代掉分镜以及概念片制作, 后期可以取代部分特效制作。对于游戏行业,游戏开发人员可能会使用它来生成自定义的视觉效果,甚至是从玩家叙 述中生成角色动作。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1