陈沛/文 OpenAI最近介绍了新的AI视频模型Sora的部分生成视频示例,引发了很多关注。Sora模型直观上带来的最大提升是能够直接生成长达60秒的视频,且在视频质感和流畅度方面表现的非常出色。
由于OpenAI的明星效应,Sora模型一经推出便引发很多用户竞相转发,表示视频效果惊为天人,视频制作的相关工作都会被取代。
Sora模型的实际生成效果仍是未知数
但从我实际使用和观察RunwayML、Stable Video Diffusion(SVD)、Adobe Firefly等主流AI视频服务的情况来看,目前AI生成视频的质感往往达不到最初宣传的效果,还会在物体行进方向、人物四肢等方面出现明显错误,无法满足实际应用的需求。
而Sora模型目前还处于测试阶段,预计再经过一段时间的安全测试和用户反馈后才会正式提供服务,因此还无法了解Sora模型的实际效果。
不过,OpenAI也没有刻意回避Sora模型生成错误内容的情况。在OpenAI发布的技术报告中有一段Sora模型生成的错误视频,展示了桌上的水杯会先从底部流出果汁,然后沿着错误的方向和角度倒在桌上。
Sora模型的背后是2022年刚刚面世的新架构
Sora模型的最大突破是视频时长。与之前的RunwayML、SVD只能生成4秒左右的视频片段相比,Sora模型生成的60秒视频实现了明显提升。
Sora模型实现视频时长突破的主要功臣是它所采用的Diffusion Transformer架构。该架构由Sora模型的主要作者Bill Peebles在2022年刚刚提出,才在ICCV 2023大会上做过介绍。
按照Bill Peebles在论文中的说法,他将Transformer结构替代了Diffusion模型中常用的U-Net结构,并将图像输入转化成了Patch(类似语言模型中输入的Token),得到了新的Diffusion Transformers架构,提升了原来Diffusion模型在深度和宽度上的可扩展性,为视频模型增加输出时长奠定了基础。
实际上,不仅Sora模型背后的Diffusion Transformer架构才面世不久,就连Sora技术报告后引用的32篇研究论文中,绝大多数也都是近3年新发布的研究结果。
研究驱动和融资驱动已成为AI发展的关键要素
回首2017年Transformer研究论文面世后,2019年就出现了首个GPT模型的发展成果。而近两年刚刚提出Diffusion Transformer的研究论文,很快就转化成了Sora模型这样的突破性产品。
如今AI领域的重要变化,往往不是来自于某个功能或应用层面,而是发源于底层架构的研究创新。研究驱动正在AI发展中起到越来越关键的作用。
另一方面,有了Diffusion Transformer这样的研究创新后,往往也是在OpenAI这样资源雄厚的机构中才能做的出来。
在开发阶段,把Diffusion Transformer的研究落地成Sora的产品需要投入大量的预训练、数据、工程资源。而在Sora服务正式推出后,运营推理过程中的资源消耗和算力成本也不可小视,融资驱动也正在成为AI发展的必要条件。
从Sora模型这个例子也能看出,要深度理解AI领域的关键动向,如今必须要从研究层面和融资层面进行观察和跟踪,从而更好地洞察AI发展的未来走势。