当前位置:首页|资讯|OpenAI|Sora

传媒行业OpenAI Sora专题:Transformer扩展优势凸显,视频理解与生成能力提升

作者:住事如风发布时间:2024-03-02

原标题:传媒行业OpenAI Sora专题:Transformer扩展优势凸显,视频理解与生成能力提升

今天分享的是【传媒行业OpenAI Sora专题:Transformer扩展优势凸显,视频理解与生成能力提升】 报告出品方:西南证券

事件: 2024年2月16日,OpenAI发布文生视频模型-Sora及其技术报告《Video generationmodels as world simulators )

从Sora模型看文生视频的技术路径: 技术路径尚未收敛,Transformer扩展特性优势凸显。市场大多认为扩散模型是图像和视频生成领域的主流路径,没有重视Transformer架构scale up的能力。OpenAI技术报告指出,Sora是基于扩散模型,但更强调,Sora是一个基于Transformer架构的扩散模型,其优秀的生成能力离不开Transformer架构优秀的scaling特性。当前,为构建性能更优、效率更高的视频生成模型,已出现多种结合Diffusion Model和Transformer架构的构建方式。

从sora模型看文生视频的最新能力( 假设展示视频以代表Sora的一般性表现:1)强大的理解能力: Sora模型不仅可以理解Prompt的内容,还能理解事物在物理世界中的存在方式,突出的语言理解能力是其能够准确生成视频的前提。2)优秀的生成能力: 长度:可生成60s视频,@复杂度:能够生成包合多个角色、多种主题、多类运动形态的复杂场景,3逼真度:能够呈现更多的视觉细节,具备更高清的画质,为用户提供逼真的视觉体验,连贯性&一致性: 可以生成同一角色的多个镜头,保持其在整个视频中的外观,在角度移动和切换情况下人物和场景元素在一维空间中的位置关系能够保持一致的运动:5可控性:在某一Prompt基础上只改动一个关键词仍能生成优质的视频,具备较好的可控性。3)其他能力 :图生视频,视频扩展/编辑/拼接/模拟等。

从Sora模型看文生视频的行业影 :目前OpenAI已向部分视觉艺术家、设计师和电影制作人提供访问权限,以获取专业的反馈。我们认为,以Sora为代表的视频生成模型有望给广告/设计/短视频/游戏等行业带来变化。从中短期来看,视频生成模型将更多的作为创作工具对相关行业进行赋能。

免责声明:以上报告均系本平台通过公开、合法渠道获得,报告版权归原撰写/发布机构所有,如涉侵权,请联系删除 ;资料为推荐阅读,仅供参考学习,如对内容存疑,请与原撰写/发布机构联系


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1