今天分享的是【AIGC行业跟踪:OpenAI发布Sora,引领多模态大模型再突破】 报告出品方:招商
OpenAl正式推出文字生成视频模型 Sora,可生成逼真长视频,且较其他模型在处理较长视频场景方面的表现更出色。根据 OpenAl 官网的介绍,OpenA正在教人工智能理解和模拟运动中的物理世界,旨在训练能够帮助人们解决需要真实世界交互的问题的模型。Sora 文生视频主要能力包括: 1)生成复杂场景且遵循物理世界规律,2) 借助 GPT 能力实现准确理解 Prompt,3)创建多个镜头并维持镜头间的一致性。相较其他视频模型,Sora 率先将文生视频长度突破 1 分钟,并实现较高的视频质量和一致性。根据 Gabor Cselle及 KEITO 等的对比,Sora 生成视频的长度与质量较 Pika、RunwayML 和Stable Video 等文生视频模型更出色。口Sora 经过大规模训练后表现出模拟能力。根据 Sora 的技术报告,OpenAl发现,视频模型在大规模训练时表现出了新兴功能,这些功能使 Sora 能够模拟现实世界中人、动物和环境的某些方面。具体来说,Sora 的模拟能力体现在:1)3D 一致性,2)长序列连贯性和目标持久性,3) 与世界互动,4)模拟数字世界。这些功能表明,视频模型的持续扩展是开发物理和数字世界以及生活在其中的物体、动物和人的高性能模拟器的一条有效路径。
Sora 为使用 Transformer 架构的扩散模型,OpenAl 将视觉数据转为patches 从而实现大规模训练。模型架构方面,Sora 是一种扩散模型,它从看起来像静态噪声的视频开始生成视频,然后通过多个步骤消除噪声来逐渐对其进行转换。与GPT模型类似,Sora 使用 Transformer 架构,从而实现强扩展性能。Transformer 在各个领域都表现出了卓越的缩放特性,在这项工作中,OpenAl发现扩散 Transformers 也可以有效地缩放为视频模型。在训练过程中,OpenAl 将视频和图像表示为称为 patch 的较小数据单元的集合,类似于 GPT中的 token。通过统一表示数据的方式,OpenAl 可以在比以前更广泛的视觉数据上训练模型,涵盖不同的持续时间、分辨率和纵横比。
免责声明:以上报告均系本平台通过公开、合法渠道获得,报告版权归原撰写/发布机构所有,如涉侵权,请联系删除 ;资料为推荐阅读,仅供参考学习,如对内容存疑,请与原撰写/发布机构联系