文/ 翟尤 《AIGC未来已来》作者
在中国农历新年假期,OpenAI又展开了一次超乎所有人想象的发布,其首款文生视频模型Sora正式对外亮相。
Sora的效果已经在科技圈内不断刷屏,不仅能够根据文字创造出以假乱真的场景,而且生成的视频时长达到60秒。以至于很多人对于OpenAI新技术的发布,如同期待苹果乔布斯时代的发布一样,总有超乎预期的技术让人眼前一亮。
从ChatGPT、DALL-E3,再到Sora,如果有一句话来总结OpenAI的与众不同之处,那就是:技术想象力和工程能力,要远比技术路线或者黑科技重要。同时,曾经大火的一众AI视频创业公司直接被降维碾压,他们的产品大部分最多支持4s的视频生成长度,与Sora的60s完全没有可比性。类似于OpenAI、Google之类的科技大厂“人间才一日,AI已千年的迭代速度”,真的感觉分分钟碾压AI创业。也不禁让人感叹,AI创业好难,所谓的“技术护城河”、“产品护城河”是否还存在?是否一夜之间就被突飞猛进的大厂技术所颠覆?
一、想象力和工程化的爆发,生成视频技术逐渐收敛
在Sora之前,我们看到的大量文生视频技术尚未实现技术收敛,主要技术路径是通过各种办法让单帧的图片“动”起来,类似定格动画。而从用户实际需求来看:视频每一帧之间的连贯性与自然度是体现视频价值的关键,也就是视频每帧语义信息的无缝衔接才是核心。
从Sora在业内关注和讨论的热度上也能看出,围绕需求提供对应的技术解决方案或者产品,要远远好于通过技术可实现的角度来创造产品。
让OpenAI公布Sora的全部技术细节已经不现实,开源只能寄希望于其他团队。但是OpenAI官网上介绍指出,Sora与之前的文生视频思路并不一样,是让模型一次预测多帧画面,并且确保视频主体保持不变。
单从技术创新度来看,Sora的技术和方法并非石破惊天,也谈不上从0到1的创新,其他机构也有相关研究,但是整体工程呈现的效果非常好。而这也是Sora在技术上的巧妙之处:在视频帧上做突破,巧妙的提升了生成视频的使用上限。
这其中与文生视频技术难收敛,工程难落地有着密切关系。而把Transformer引入到文生视频的扩散模型中,实现视频帧之间的语义信息预测,就可以让语言模型在其中发挥出巨大的价值。也就是说:Transformer+Diffusion Model,终于在2024年初实现了融合,不再是独立两条发展路径。这也就是为何Sora一出现,就引发用户的点赞和肯定的原因:文本模型的连贯性和可扩展性,可以在视频模型的基础上把用户的感知效果提升多个层次,让文生视频可以进一步接近商用奇点。
在这方面,OpenAI已经在ChatGPT、DALLE-3的工程化上实现突破,这次更是把以上模型成果有机融合起来,把工程化能力发挥到极致。
二、好莱坞式的大片,离素人越来越近
2023年及以前,文生视频的模型虽然出现了Runway、PiKa等现象级产品,但从整个行业来看,把扩散模型和语言模型相结合的工作并没有被业内放在“最高优先级”。
可以预见的未来,随着文生视频技术的收敛,生成视频技术的使用门槛降进一步降低,将帮助人们完成大量工程化的工作,可以媲美好莱坞水准的视频解决方案将会出现。
具体来看,从过去视频制作前期设计、中期拍摄、后期制作的传统流程中,逐步向后期制作进行倾斜,尤其是不断生成新的视频元素会导致前期设计和中期拍摄的工作流产生极大的变化,出现新的工具和工作流。
最终将在多个C端消费场景中得到应用,比如商品广告、剧情片等等。尤其是对于视觉艺术、设计师、电影制作等工作,可以帮助这些专业人士快速原型化和可视化,节省一定时间和成本。
这其中,尤其是对短视频行业带来巨大想象,普通用户可能无法通过Sora制作好莱坞大片,但是制作一个60秒的高质量短视频,似乎近在咫尺。尤其是对于内容逻辑性要求不高,在探索科幻等方面,可以协助个性化内容的制作。
三、与其期待Sora,不如期待AI视频剪辑软件的普及
对于OpenAI来讲,更像是前锋,开山辟路是它的强项,开枝散叶搞应用的事情并不关注。
从单点的突破来看,Sora具有里程碑意义。但是从商业化需求和混剪工作流效率提升来看,Sora本身的价值还有待商榷。
想靠60秒生成的视频成为下一个董宇辉、李佳琪并不现实,更别说制作长视频或者电影、电视剧了,距离真正落地还有漫长的路要走。
还是以短视频为例,是通过一遍遍修改提示词(Prompt)更加有效率,还是在视频剪辑软件里调整素材更快?
很显然,我们期待Sora,不如期待视频剪辑软件中尽早更新增加AI工具,从而在商业上追求效率真正的提升。同时,通过提示词来进行视频生成一直存在理解偏差的问题,这一问题不仅困扰文生视频,在ChatGPT使用过程中依旧没有解决。
即使Sora全面放开使用,普通用户也难以做出如当前演示案例般的Demo。最终决定Sora是否能够普及的关键,是工具本身是否能够提升人们的工作效率。
是买家秀,还是卖家秀,仍需要时间的检验。
四、生成视频领域,其他企业没有机会了吗?
显然并不是。
生成式人工智能领域,科技企业都在不断发力:
Meta在几乎同一时间发布了V-JEPA,可以不进行微调就能够应用各种需要世界知识的任务中。而且V-JEPA是在特征空间进行自监督学习,效率更高。至于哪条路会通往最终的通用人工智能,目前尚未可知。
谷歌也在相近的时间上线了Gemini 1.5,可以支持10000K token的上下文,使得大模型的输出更加连贯、实用。多模态变得更加流畅,工程化不输OpenAI。
Runway和Pika等之前的文生视频产品,依旧可以在人工智能时代获得一席之地。Sora应用的是Transformer+Diffusion,从模型架构来看:如果以Transformer为基准,那么文生视频依旧是龙头科技企业更有优先权,但是如果生成式视频架构依旧围绕Diffusion展开的话,创业企业机会更大一些。
没有一骑绝尘的技术,只有螺旋式上升的产业繁荣。
Sora虽然可以一次性生成几十秒的视频,但是真正在应用阶段,如果产品没有提供足够多的微操空间,确保用户能够通过微操将其整合到自己的工作流中,那么大概率Sora仍是效果越来越炸裂,距离用户越来越远。
即使是ChatGPT已经问世一年多的今天,还有大量用户没有使用过聊天机器人。这也为开源社区迎头赶上创造了窗口期,同时,文生文、文生视频这些模型的模块化组合,是否会有类似iPhone一样的专有智能设备问世?让更多用户可以在端侧使用模型,构建起开源+小参数模型+移动端的思路,把智能手机的形态也做一次革新。
永远有新产品出现,技术的扩散才刚刚开始,不会有任何一家公司“猝死”在新技术的出现上。
五、AI爆发时代,普通人也可以做“领航员”
对于普通人来讲,不被“遥遥领先”和“王炸”之类的词洗脑已经实属不易,如果还能再清醒一些就显得更加弥足珍贵。Sora爆发的当下,普通人要做的事情可以归结为三件事:
1.应用到你熟悉的场景中
焦虑的反面是具体。只有把Sora等人工智能新应用用起来,融入到具体的场景和工作中去,我们才能够切身体会人工智能到底会取代自己的哪些工作内容,以及取代的程度有多深。同时还能真切的发现人工智能在哪些方面可以真正落地并解决我们的问题。对于新技术和新应用,早期使用者的最大优势在于,可以更早的发挥出先进科技的价值,来提高生产力和生产效率。如果你只是尝鲜,用人工智能问问脑筋急转弯、看看人工智能是真聪明还是智障,找找优越感的话,那么只能沉浸在短暂的舒适区而已。
2.探索属于你的新模式
蒸汽机是瓦特改良的,但是真正发挥价值的是使用蒸汽机进行生产的企业家;汽车让运输行业效率大增,但是电商行业把运输行业升级到物流体系,以至于次日达成为诸多电商平台的标配。
Sora在当下展示出了各种超能力,但还需要一个真正的伯乐。伯乐不但理解人工智能工具的各种优势和不足,还要对自身业务体系有着深刻的理解和洞察,通过使用人工智能技术来整合重塑业务流程。未来将出现更多整合了人工智能的全新方案,来“侵入”到各行各业之中。
3.成为规则的“领航员”
适应变化才是王道。
回顾工业革命,机器的出现导致失业的并非普通纺织工人,而是有经验的高端纺织工人。这其中的原因就是工业革命把专家经验固化到系统之中,使得没有经验的人通过机器或者系统,就能够做出比有经验的人更好的产品。同样的,最近波士顿咨询公司将咨询顾问分为高底两个组,同时使用GPT-4,最终结果是低水平顾问的结果质量提高43%,高水平顾问仅提高17%。高底两个对比组的绩效结果之差从22%缩小到了4%。
与其在不久的将来去适应别人制定的新规则、新体系,倒不如利用先发优势适应变化、拥抱变化,成为规则“领航员”。梳理了Sora出现之后,大家讨论如何做“创新”的一些思路,供大家参考: