央广网北京2月19日消息(记者 黄昂瑾)时隔一年多的时间,OpenAI又一次站在了“聚光灯”下。2月16日,OpenAI推出文生视频大模型Sora,引发广泛关注和持续热议。
业内专家告诉央广网记者,在Sora推出之前,业内已经预估2024年会是文生视频大模型爆发的一年。“Sora可以说是又一个ChatGPT时刻。”
文生视频出现突破
根据OpenAI官网的介绍,Sora是一个通用的视觉数据模型,它可以生成不同持续时间、不同宽高比和不同分辨率的视频和图像,并可以生成长达一分钟的高清视频。同时,Sora生成的视频可包含复杂的角色、特定的移动类型,以及主体和背景细节。
目前,Sora大模型尚未对公众开放,从已经公布的由Sora生成的视频案例来看,其画面的流畅、细节的呈现,以及视频里各主体之间的逻辑关系等,均让人看到了其强大的视频生成能力。
华泰证券研报指出,Sora目前可以通过文本或图片生成长达60s的视频,远超此前Runway(18秒)、Pika(起步3秒+增加4秒)、Stable Video Diffusion(4 秒)等AI视频应用生成时长,在视频效果及稳定性等指标上表现也更加优异。
平安证券研报也表示,Sora呈现良好的多模态能力,不仅支持文本生成视频,还具备图像生成视频等能力。另外,Sora还有生成图像的能力。同时,在模拟物理世界方面,Sora取得了积极的进展。在与现实世界互动方面,Sora有时能够以一些简单的方式模拟现实世界的状态。比如,画家可以在画布上留下新的笔画,并且这些笔画随着时间的推移会持续存在。
不仅仅是视频生成工具,OpenAI将Sora定位为模拟世界的视频生成模型。通过训练Sora,OpenAI正在教授人工智能理解和模拟运行中的物理世界,目标是训练模型帮助人类解决需要现实世界交互的问题。
OpenAI官网公布的Sora大模型技术报告显示,Sora的核心技术主要包括Diffusion Transformer架构和时空patches。基于Diffusion Transformer,从一开始看似静态噪声的视频出发,经过多步骤的噪声去除过程,逐渐生成视频,Transformer架构带来优越的扩展性能。而时空patches将不同类型的视觉数据转化为统一的表现形式。同时,该模型对语言有着深刻的理解,从而能够准确地演绎提示内容,并生成表达充满活力的情感的引人注目的角色。Sora还可以在一个生成的视频中创建多个镜头,准确地保留角色和视觉风格。
大模型理解、反映和模拟物理世界成为可能
北京智源人工智能研究院副院长兼总工程师林咏华在接受央广网记者采访时指出,从技术路线来看,Diffusion架构是用于文生视频的标准算法框架,已在业内达成共识。相较于此前 Runway、Pika Labs等多家人工智能公司推出的文生视频大模型,Sora的“惊艳”之处体现在其对物理世界的理解和模拟能力。
“首先是对物理世界的模拟能力,Sora生成的视频无论是镜头的运动,包括很多三维视角的切换,都符合对物理世界的模拟,比如一些海浪翻滚、风吹草动的呈现等。”林咏华表示,Sora还体现了其对真实世界逻辑的推断和生成的能力,“比如一对情侣坐在沙滩上,沙滩边上突然出现一条鲨鱼,根据这么短短的一句话,Sora生成一个长达一分钟的视频,已经囊括了很多细节的变化,包括从鲨鱼出现之前,这对情侣在沙滩边岁月静好,表现出放松的表情和动作,逐渐过渡到鲨鱼从水里冒出来,靠近这对情侣时,两个人动作和神态的变化。”
在林咏华看来,从ChatGPT到Sora,既是人工智能技术的升级,但也不仅仅是简单的升级。“一直以来我认为GPT是一个困在数字世界的‘囚徒’,它不能够真实地感受、理解和反映物理世界。所以从ChatGPT到Sora,反映了大模型真实理解、反映和模拟物理世界的巨大能力,也让我们看到了这种巨大的可能性。”
将推动影视相关行业机构转型
Sora大模型的推出,除了让人们看到AI大模型的无限可能,也在一定范围上引发了“Sora是否会替代影视制作从业人员”的讨论和担忧。
林咏华指出,大模型会替人类完成一些任务,但不会完全取代人类的工作。“以Sora为代表的大模型的出现,更多是扮演辅助工具的角色,帮助人类提高效率,提高生产力。”
华泰证券研报指出,Sora等AI文生视频产品有望在电影、短视频、游戏等领域较大改变创作者的工作方式,降低创作成本,提升生产效率。
DCCI互联网研究院院长刘兴亮也对央广网记者表示,从Sora大模型对行业的影响来看,专业机构将面临迫切的转型。“要把它更好地作为一个工具利用起来。很多人因为Sora大模型的出现,对影视行业心存担忧,其实淘汰相关行业从业人员的,不是AI工具本身,而是那些掌握了类似Sora等AI工具的同行。所以相关行业的从业者必须要进行转型的思考。”