就在我们欢度新春佳节时,大洋彼岸的美国AI行业先后打出了一对大小王。先是英伟达的Chat with RTX,让大家可以在自己的电脑上本地运行AI聊天机器人,大幅降低了大语言模型基于消费级显卡部署的门槛。紧接着OpenAI毫无征兆地曝光了新模型Sora,可以将文本提示转化为长达一分钟的高清视频,且在一致性、合理性和稳定性上都超乎想象,直接降维打击了Runway、Pika,更是使得文生视频赛道翻开了崭新的一页。
如果说Chat with RTX只是一个更接地气的工具,那么OpenAI的Sora就堪称是给整个视频创作领域投下一枚深水炸弹。一时间,网络上一大批短视频创作者乃至影视行业从业者纷纷开始谈论,一个如此强大的文生视频模型对于现有秩序的影响。
Sora有多强大呢?简单来说,它不仅仅能生成一个一分钟连贯且高清的视频,而且视频中每一帧的画面都与Midjourney、Stable Diffusion精雕细琢的东西不相上下。
在Pika等“上一代”文生视频模型还在努力将生成视频的长度突破四五秒这一桎梏时,Sora就已经做到了生成一分钟的连续、多机位视频,还可以基于视频扩展生成后续,完全就是两个时代的产品。更妙的是Sora还使用了世界模型,能够理解模拟物体的运动、并作出预测,这是以往一众文生视频的AI模型从未实现的功能,更是做到了输出符合物理规律的图像。
相比于聊天机器人、文生图,看起来更符合当下互联网环境的文生视频为什么不是2023年AI应用的主角?当然是技术限制,去年被热炒的Pika Labs只能做到生成3秒的视频,Meta的Emu Video则是4秒,表现最好的Runway Gen-2也就18秒。以体量来计算,这一批模型生成的视频显然很难称得上是“视频”,反而更像是GIF动图。
但这并不是Pika、Meta们不想把视频长度加长,而是只能如此,因为一旦时间变长,模型就会变成“脱缰的野马”,不知道会生成什么“妖魔鬼怪”出来。
Sora不仅理解用户在文本提示中所要求的内容,更是能够将这些事物与现实世界中的存在方式相结合,呈现出逼真的视频效果,OpenAI在介绍中的这一句描述,就道出了Sora的魅力所在。
相信大家更关心的,是Sora会不会改变我们看到的世界,答案大概率是肯定的。Sora之于视频创作就像是一年半以前,Stable Diffusion之于绘画一样。
问题就出在这里,过去一年里,大量由AI生成的图片直接把“绘圈”的水给搅混了。Stable Diffusion等AI绘画工具已经在事实上导致了画师的失业潮,从国内到海外的游戏厂商不约而同地琢磨着裁撤美术团队,许多靠着绘画技术谋生的人转行的转行、失业的失业,因此如今视频创作者自然也是心有戚戚,害怕同样的事情会发生在他们自己身上。
Sora的横空出世必然会改变视频创作的既有格局,这一点毋庸置疑,不过对于不同类型的创作者所产生的影响,却很可能并不一样。暂时、或者说两三年之内,Sora还不会颠覆专业影视创作,这是受到该模型的技术原理所限制。按照OpenAI方面披露的技术文档显示,Sora依然使用Transformer架构、基于Diffusion model,并非外界猜测的“一个数据驱动的物理引擎”。
Diffusion model也就是所谓的扩散模型,该模型的原理就是给一张图片加上大堆雪花一样的噪音,然后让AI去除噪音、还原本真。这一技术目前在AI业界并不是什么“绝世神功”,而是类似“少林长拳”的大路货,但OpenAI的Sora做到了模型越大、数据越多,效果却能相应变好、而不是原地踏步。可“Transformer+Diffusion model”这样的基座就决定了Sora的运行逻辑是模仿,它的世界模型也做不到严谨地复现物理规律。
实际上,目前受邀用户在社交平台所展示的由Sora生成的视频,也真实地展示了该模型的瑕疵。比如有一个老奶奶在熬汤的视频里,老奶奶手中的汤勺就在视频中间突兀地凭空出现。简单来说,Sora生成的视频暂时还是不可控的,这一点对于专业化的影视制作需求来说显然是无法接受的,电影、电视剧的制片方是不可能直接将随时可能翻车的视频用作成片,所以必然就会需要人工后期精修,进而也导致了Sora只能进行辅助、却无法取代相关专业人士。
虽然Sora暂时还改变不了PGC、却很可能会颠覆UGC,自媒体几乎是一定会受到剧烈的冲击,准确来说是一大批靠追逐热点内容而活的自媒体,会受到巨大的挑战。这类自媒体的特点就是对于热点内容的高度敏感性,他们更像信息的二道贩子,赚的就是信息差,并且绝大多数自媒体制作的内容在画面呈现效果上比不上Sora,而且产能更是被Sora碾压。
制作视频的门槛大幅度降低,就意味着以往只对热点敏感、却不具备视频制作能力的创作者,现在也能“入行”了,当一个赛道变得更卷之后,既得利益者的日子自然就会难过。但具备对信息深加工能力的创作者则会笑到最后,毕竟独特的视角、深度的解读此时也会变得更有价值。换而言之,如果创作者满腹珠玑,那么Sora就会成为一大助力,让视频的产能更上一层楼。
只能说,彼时彼刻恰如此时此刻,继此前Stable Diffusion让中低层画师失业后,Sora大概率也会让“内容农场”变成一个历史名词。