2月16日凌晨,OpenAI发布旗下首个AI视频生成模型——Sora模型,并公布技术报告。
这一重磅发布事先并无预兆,也正因如此才足够让人好奇。根据OpenAI官网信息,Sora人工智能模型能够通过文本提示,生成逼真且富有想象力的视频。OpenAI也在官网详细介绍了Sora模型的参数、应用及不足之处。
从多个参数来看,该模型都远超行业指标,重新定义了AI文生视频在现阶段的技术极限,应用之广更是引爆科技圈,激起众多讨论。
Sora模型的到来同样引发了巨大的市场反响,直接推高了OpenAI的估值。根据券商中国援引外媒的最新消息,据称OpenAI已经完成了一笔交易,这家人工智能公司的估值已达800亿美元。
在不到10个月的时间里,其估值增长了近两倍,仅次于字节跳动和SpaceX,成为全球第三高估值的科技初创公司。此时ChatGPT横空出世才不到两年,此前OpenAI估值已经多次创新高。
生成式AI发展速度之快,让人咋舌的同时也让不少行业从业者感到担心。替代性工作的风险是否就在眼前?未来生成式AI还会在哪些方面影响整个世界?这两天大家正在反复讨论这些内容。
科技的狂欢
看清楚Sora模型的优势,才能了解其价值。为方便理解,本文不欲讨论模型架构等技术层面参数,而是着眼于Sora模型的应用价值及未来发展,希望能在评论区激起更多讨论。
跟之前明星创业公司追求几秒的高精度视频相比,Sora模型文生视频功能强大,通过文本提示最高能生成1分钟的1080P高清视频,直接刷新行业标准。
这里需要明白一个概念,AI视频不仅包括文生视频,还包括图生视频、视频生视频。其中,文生视频可以说是最难的,它要求模型能够从文字解码出视频逻辑,需要视频画面中所有物体的运动、变化都符合现实世界的规律。相较文生视频而言,图生视频、视频生视频因为都有真实的画面来源,则相对简单一些。
这正是Sora模型的价值所在。
援引华泰证券,Sora模型通过文本或图片生成长达60s的视频,远超此前Runway(18秒)、Pika(起步3秒+增加4秒)、Stable Video Diffusion(4秒)等AI视频应用生成时长,且在视频效果及稳定性等指标上也更加优异。同时,Sora模型支持视频向前向后扩展、以及视频编辑,这是此前竞品很难做到的方面。而Sora模型之所以能刷新行业标准,跟其训练逻辑相关。
比如,传统的视频和图像生成,通常将视频素材裁剪或修剪为标准大小,相当于生成后进行二次处理,而Sora模型以原生大小对数据进行训练,比如分辨率为256X256的4秒视频,Sora模型可以直接以原生宽高比为不同设备创建内容。
这种方式带来了灵活性及优化的取景和构图,效率更高,且原生视频的质量也更高。
除了在视频时长、语义理解程度、视频效果和稳定性等方面超出竞品,让行业更关注也更具突破性的,恐怕还是Sora模型展现出了对物理世界超强的仿真能力,这背后是Sora模型在理解和模拟物理世界方面的巨大突破。
模拟世界,即训练人工智能去理解和模拟现实的物理世界,让机器能够尽力像人类一样,对世界有一个全面而准确的认知,最终帮助人类解决跟现实世界交互的问题。
视频语言毕竟不同于文本和图像,对于现实世界有所理解并进行真实模拟,生成的视频才可能没有逻辑错误,才能贴合现实,才能更加真实。Sora模型作为一个扩散模型,采用的是Transformer架构,由此也具备了一定世界模型的特质。
西部证券就总结其优点,称其除了生成的视频在能保持超强的一致性等优点之外,更像“物理世界的模拟器”,具体体现在“3D一致性、长期连贯性和物体连续性、与世界互动、模拟数字世界”。
这一点看似容易,实则在文生视频领域并不容易做到。市面上竞品多停留在几秒或十几秒时长,超出这个范围,生成的视频逻辑经不起推敲,画面很难做到连贯,质量及可控性自然是大大下降。
因为上述种种优势,Sora模型一经出世就震惊行业,不仅大家热议的影视行业将发生巨变,包括游戏、短视频等领域均将受到影响,并将直接促进内容消费市场的繁荣发展。
且根据上述世界模型的特质,Sora模型还将对自动驾驶、智慧城市等领域产生深刻影响,VR虚拟现实也将成为受益产业,AI视频将为虚拟现实提供更充足的内容。
直面恐惧
虽然Sora模型在某些参数上已经吊打同行,但目前来看,Sora模型更像是GPT刚推出的模样,不够成熟,也暂未开放使用。
根据OpenAI官网的描述,Sora模型在模拟复杂场景时仍会出错,并不总能准确呈现物体状态的改变。比如,它不能准确地模拟许多日常的基本物理过程,像是玻璃破碎过程、吃食物后表面没有咬痕、凭空生成并不需要的重复或变形画面等等。
更重要的是,文本生成视频可能会产生错误信息,这些错误信息一旦通过视频呈现给大众,会更加直观地影响用户对于世界的某些认知。
OpenAI官网也称,Sora模型可能难以准确模拟复杂场景的物理特性,并且可能无法理解因果关系。Sora模型的安全性、对于有害内容的把控、对于偏见和歧视内容的筛查,目前仍处于摸索当中。
Sora模型或许会带来新一轮内容创作产业革命,但与此同时,其中问题也会暴露和呈现得更加直观和粗暴,影响更加深刻和广泛。
目前Sora模型已向部分专家开放以评估潜在风险,同时也正在向部分设计师、电影制作人、视觉艺术家等授予访问权限,以获得使用反馈。
不过,OpenAI一再强调Sora模型是能够理解和模拟现实世界模型的基础,这一功能将成为实现通用人工智能(AGI)的重要里程碑。
Meta首席人工智能科学家、图灵奖得主杨立昆(Yann LeCun)本人,就认为,AI只有真正理解物理世界,才具备真正的价值,并断言GPT模型活不过五年。
这些说法不无道理,不同于市面上其他竞品,Sora模型的初衷就是渲染出一个更加真实的世界,或许会对上述提到的种种问题,有一个更好的解决方案。
目前Sora模型暂未对外开放使用,仅OpenAI的CEO Sam Altman在X平台上与评论互动生成视频,一方面固然是因为模型还不够成熟,另一方面,算力限制或许是重要因素。
大模型需要大算力,Sora模型作为定位“模拟世界的视频生成模型”,跟文本和图像生成不同。世界模型会让AI视频生成更流畅、更符合逻辑,降低视频模型的训练成本,提升训练效率,但同时也需要更强的算力,更高阶的硬件支持。
随着AIGC技术在影视剧集、宣传视频、自媒体、游戏等领域逐步渗透,视频创作效率或迎来显著提升,但同时视频相对于文字、图像的交互数据量级也将有巨大提升,或对应算力需求的高速扩张。
肉眼可见的是,未来的算力需求会更大,AI发展带来的行业利好明显。全球范围内大模型领域的竞争依然白热化,这将持续拔升大模型的整体能力水平。
尾声
就在Sora模型模型发布的前一天,也就是2月15日,谷歌推出一个中型大小的多模态模型Gemini 1.5 Pro,支持长达100万个token,远超当前其他基础模型,可以一次性处理大量信息,如1小时的视频、11小时的音频、超过3万行代码或超过70万个单词。
大模型的竞争正在加剧。
行业人士大多认为Sora模型比起此前其他的文生视频模型,已经实现跨越式发展,有望成为实用生产力工具,1分钟长度有望大规模应用在短视频领域。而其扩展视频的能力,也有望在长视频领域提供更加高效的辅助加成作用。
不过,OpenAI虽然遥遥领先,却也不是全完没有压力。在Sora模型的文生视频模型发布之前,明星创业公司Runway、Pika已经在AI生成视频方面做的相当不错。
随着Sora模型、Pika等应用的陆续出圈,AI视频应用的竞争或将更加剧烈。
AI的世界,日新月异。
【免责声明】文章内容仅供研究和学习使用,不构成任何投资建议。