当前位置:首页|资讯|OpenAI

OpenAI新工具Sora可生成精良逼真视频:将彻底颠覆演艺影视行业?

作者:南方周末发布时间:2024-02-20

OpenAI新工具Sora可生成精良逼真视频:将彻底颠覆演艺影视行业?

AI发展的又一枚重磅炸弹:2024年2月15日,OpenAI发布了新工具Sora,可根据文字生成逼真的AI视频。目前,其官网上已更新了48个视频Demo,制作的精度、仿真度、艺术性……均已达到真假难辨、令人震惊程度。

仔细逐一观看,甚至逐帧挑错,只要输入的先决条件符合基本物理定律、没有逻辑Bug,Sora制作的大多数视频真伪难辨。而且,所提出的要求越明确、细节越充分,其所生成的视频就越接近于真实。

有用户提出“一位身穿围裙、面带微笑的白发女士邀请观众进入她的厨房。祖母辈的网红主持的自制团子烹饪课程,背景是一个质朴的托斯卡纳乡村厨房,并配有电影级的灯光”,以及“一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上,她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色手袋,戴着太阳镜,涂着红色口红,走路自信又随意。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。许多行人走来走去”。

这两段命令文本输入后,Sora所生成的AI视频,完全能做到以假乱真、无法分辨是真人拍摄,还是AI生成。

但有些命令不太符合物理定律和生活常识,Sora生成的视频,还是能被分辨出来是电脑特效。譬如“面对意大利布拉诺岛色彩缤纷的建筑。一只可爱的斑点狗跨过一栋栋建筑的窗户”,根据这段文本所生成的视频虽然很漂亮,但我知道它是假的,因为那狗子从一个窗台跳到另个窗台的动作,怎么看都是猫咪的动态,而生活经验告诉我,狗不喜欢爬高上低,不会像猫那样从一个窗台跳到另个窗台。

Sora的名称源于日文“そら”(空),以寓意其无限的创造潜力。它是OpenAI在文本到图像生成模型DALL-E基础上研发而成,模型的训练数据既包含公开可用素材,也有专为训练目的而获授权的著作权视频,但OpenAI没有公开训练数据的具体数量与确切来源。

Sora的实验展示版刚刚公布,就力压群雄。竞争对手Runway Gen 2、Pika、Google、Meta的生成工具,仅能达到产生几秒钟连贯性视频的水准。而Sora已经能够生成时长达1分钟的连续、稳定、高品质视频作品。

在OpenAI的Sora网页上,对其描述翻译成中文:我们在可变持续时间、分辨率和纵横比的视频和图像上联合训练文本条件扩散模型。利用一种Transformer架构,该架构在视频和图像潜在代码的时空补丁上运行。最大的型号Sora能够生成一分钟的高保真视频。我们的结果表明,扩展视频生成模型是构建物理世界通用模拟器的有前途的途径。

这段晦涩而拗口的技术语言,用通俗易懂的大白话来解释:

Sora能够生成具有多角色、特定类型动作、高仿真主题背景的复杂视频,目前所生成的产品,连续时长可达1分钟。

Sora可在所生成的产品中创建多镜头场景、模拟复杂的镜头应用,且准确地保持角色再现,并确保视觉表现的高水准。

Sora不仅能理解用户的文本命令内容,还能理解这些事物在现实世界中的存在方式,并生成具有丰富情感色彩的动态视频角色。

OpenAI首席执行官Sam Altman于2月15日在X网站上写到:“我们想向你们展示Sora能做什么……不用担心你的要求太细,或是难度太大!”然后,他分享了Sora根据这些要求所生成的视频。

网络随之震动,甚至已经有人开始“悼念”视频素材产业,有人写到:我要失业了!整个素材行业都会因这条推文而消亡!

但是,不可低估人类的顽强与智慧。Sora目前只是研发工程的阶段性展示版本,其尚需进一步发展、改进、成熟的过程。在可预见的未来1-2年,它还无法淘汰整个视频制作产业。

OpenAI对Sora目前存在的缺陷与不足直言不讳:模型在准确性方面可能会遇到困难,也可能无法理解具体的因果关系实例。例如“五只灰狼幼崽在一条偏僻的碎石路上嬉戏、追逐”,狼崽的数量与空间位置变化处理得尚不理想,一些狼崽会凭空出现或消失。该模型在空间随着时间推移发生变化的细节方面,也不够理想,例如根据“篮球穿过篮筐然后爆炸”的命令所生成的视频,不但仿真性较差,且不符合真实的物理规律。

然而,可怕的对手是能够认识到不足、坦然承认不足。这样,在技术层面解决这些不足、推出更加完善的迭代升级产品,就只是研发经费和时间的问题了。几年后,Sora肯定能生成5分钟、10分钟,甚至更久时长的,且品质更高、Bug更少的产业端应用级产品,到那时,将不再仅是视频博主担心会失业,而是全世界的影视业、广告业、时尚业、娱乐业、科研级别虚拟现实等产业,都要重新写就,是涉及上千万人、数十万亿美元的市场爆发与结构重组。

由于担心Sora可能被滥用,OpenAI表示:目前没有计划向公众发布该模型,而只是给予小部分研究人员有限访问权限,以理解模型的潜在危害。OpenAI还与一小群创意专业人士分享了Sora,以获取对其实用性的反馈。

Sora生成的视频带有C2PA元数据标签,以表示它们是由人工智能模型生成的,以防止其被用于欺诈。

OpenAI还表示:意识到Sora有可能(被人利用)制造错误信息和仇恨内容等,所以“我们也在开发有助于检测误导性内容的工具,比如检测分类器,它可以分辨视频是何时由Sora生成的”。

即便如此,研究人员仍担心:AI驱动的深度伪造已成为一种风险,很可能会在2024年美国总统大选中,给公众造成困惑。

看来,科技发展,永远是双刃剑,而人类的内心才是深不可测的深渊。或许,在未来几个月,我们就可以鉴证:Sora这类AI视频创作工具,会不会影响美国白宫的未来走向?

• (本文仅为作者个人观点,不代表本报立场)

美逸君

责编 陈斌


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1