图片来源@视觉中国
文 | 贝克街探案官,作者 | 镇西
没想到今年第一个引爆科技圈的消息,还没等复工就刷了屏,复工后又直接推动相关企业市值爆拉,A股25家相关企业市值共计增长888.42亿元,两个交易日平均涨幅26.94%。
2 月 16 日凌晨,OpenAI 发布首个文生视频模型 Sora,是OpenAI继ChatGPT之后,推出的另一款具备颠覆行业能力的AI应用,Sora能够仅仅根据提示词,生成60s的连贯视频,远超行业目前大概只有平均“4s”的视频生成长度。
“平均4s”的长度指代非常明显,就是Runway和PIKA。也曾短暂引爆过A股文生视频的炒作,但无论是强度还是持续性,都远不如Sora。
在Sora问世之前,Runway和PIKA被视为文生视频领域的龙头,但在sora生产的视频出现后,业界普遍认为Sora可以吊打Runway和PIKA。
Pika创始人郭文景曾在接受采访时表示,“视频现在没有很好的算法,它不是一个规模化的问题,不是说现在大家的GPU不够多,很多时候其实是算法上还没有很好的一个思路。”并认为Sora的发布“是一个很振奋人心的消息,我们已经在筹备直接冲,将直接对标Sora。”
和Runway和PIKA相比,Sora产出的视频时间更长,连贯性更好,其他模型产出的视频甚至还有卡顿、场景突变等问题;在此基础上,Sora的视觉细节更丰富,且清晰度更高。对比Sora和runway的视频不难发现,Sora的视频内容更符合常人对“视频”的理解,而runway的视频内容更像是“GIF”动图。
业内普遍认为,Sora的出现,预示着一个全新的视觉叙事时代的到来,它能够依据客户的文本提示,将人们的想象力转化为生动的动态画面。Sora作为一款通用的视觉数据模型,其卓越之处在于能够生成跨越不同持续时间、纵横比和分辨率的视频和图像,甚至包括生成长达一分钟的高清视频。
从成片来看,假以时日,伴随熟练运用Sora的工程师、自媒体人越来越多,电影业恐将在此次技术变革中迎来一次大洗牌,毕竟每一部影视作品成片之前都要先有个好剧本,好剧本问世后,用Sora就可以实现视频输出了。
但就目前而言,实现这个目标为时尚早,因为整个Sora产业链正处于萌芽期,国内目前尚未有一家公司可以与之抗衡,就连字节都直言“Boximator”目前还无法作为完善的产品落地,令人略有欣慰的是,已经涌现出大批企业试图搭上Sora的快车。
这也不禁让人想起ChatGPT发布后,大量企业跟进推出“自研大模型”,并不断呼嚎赶超OpenAI,结果人家这次直接来个降维,借着推出Sora继续AI应用市场遥遥领先。
01 Sora是否难以复制
Sora采用了Transformer架构,和ChatGPT不同的是,大语言模型通过token将各种形式的文本代码、数学和自然语言统一起来,Sora则通过视觉包(patchs)实现了类似的效果。
Sora和ChatGPT最大的区别,就是Sora为扩散模型,它接受输入的噪声包(以及如文本提示等条件性输入信息),然后被训练去预测原始的“干净”包。
重要的是,Sora是一个基于扩散的转换器模型,这种模型已经在多个领域展现了显著的扩展性,包括语言建模、计算机视觉以及图像生成等领域。扩散转换器在视频生成领域同样具有巨大的潜力,不同训练阶段下,使用相同种子和输入的视频样本对比,结果证明了随着训练量的增加,样本质量有着明显的提高。
Sora研究员专门训练了一个网络,专门负责降低视觉数据的维度。这个网络接收原始视频作为输入,并输出经过压缩的潜在表示。Sora模型就是在这个压缩后的潜在空间中接受训练,并最终生成视频。此外,研究员还设计了一个解码器模型,它可以将生成的潜在表示重新映射回像素空间,从而生成可视的视频或图像。
当给定一个压缩后的输入视频时,从中提取出一系列的时空包,这些包被用作转换token。这一方案不仅适用于视频,因为视频本质上就是由连续帧构成的,所以图像也可以看作是单帧的视频。
通过这种基于包的表示方式,Sora能够跨越不同分辨率、持续时间和纵横比的视频和图像进行训练。在推理阶段,研究员只需在适当大小的网格中安排随机初始化的包,就可以控制生成视频的大小和分辨率。
仅从原理层面来看,推出Sora这种文生视频大模型并不难,但国产厂商在推出进度上纷纷落后于OpenAI,此前曾有消息称字节推出了Boximator,它可以通过文本精准控制生成视频中人物或物体的动作。
对此,字节跳动相关人士回应称,Boximator是视频生成领域控制对象运动的技术方法研究项目,目前还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。
其他发布公告的企业,要么是想要介入这个赛道,要么就是可以为该行业提供硬件设备支持,因为A股市场中没有文生视频的企业,所以退而求其次,找到了一家文生图产品获得市场认可的企业炒作,即因赛集团,该公司的InsightGPT的文生图功能已在时尚珠宝和快消两个赛道的营销领域商用,并且具有一定市场认可度。
其他的则是一些算力租赁公司获得市场爆炒,至于想要切入这个行业的公司就更多了,不胜枚举。
02 Sora商用,会切走谁的蛋糕
Sora之所以会引起市场轰动,主要是因为其“文生视频”的功能直接让影视从业人员集体焦虑。
北京天工异彩影视科技有限公司的副总裁兼CTO周辉公开表示,Sora生成的视频质量足够震撼,可以缩短电影拍摄周期。
其实周辉的表达还是保守了,只要Sora工程师足够多,硬件设备不受限,整个影视业的演员都可以省了,动辄过亿的演员费用也可以省下,那现在已经成名的影视剧明星,想要上镜就要另谋出路,当然制作方也可以获得已成名演员的授权后上镜。
同时场地租赁、置景等费用也会随之下降,这也给了很多非专业团体在影视业一展身手的机会,换言之,今天是影视业最容易的一天,以后每一天都比今天难上加难,值得注意的是,这一逻辑对视频依赖较大的广告业也通用。
除此之外,国内刚起步的科幻电影可发挥空间也将瞬间提升。之前一直说《三体》影视化不成功,是因为很多场景制作困难,而Sora的出现,可以有效解决这个问题,C 内容的专家化也将创造新的风格与形式,增强影视内容的吸引力与丰富度。用人方面,特效师因为具备基础的工作逻辑,培训周期也比其他没有经验的人群更短。
但在Sora工程师大规模入局之前,短期Sora还是一个工具性产品,某种程度上帮助影视制作方降本增效。
除影视行业外,游戏行业也将借助Sora产生巨大变革,Sora对于物理世界的理解和模拟可以与游戏场景开发高度适配,Sora可以帮助游戏开发者创立角色或背景故事。OpenAI也在Sora技术报告中提出,Sora能够模拟如视频游戏的数字化过程,根据官方视频演示,Sora能在控制《Minecraft》游戏角色进行基本操作的同时,高质量动态渲染游戏世界。
可以预见,Sora未来将可能被应用生成游戏动画和场景等,增加游戏情感故事背景提高可玩性,游戏开发者的成本也将随之降低。简言之,又会有部分人因此面临岗位变动。
03 学会使用AI工具
这种背景下,不会使用AI工具的从业者将会伴随科技进步,被时代无情淘汰,而掌握AI工具的外行业,跨行也不会再体会“翻山越岭”般的困苦,当今大量自媒体从业者,也有机会进一步落地自己的创意。
至于卖课教别人怎么使用AI工具的机构,谁让人家先掌握知识呢,“知识就是力量”已经成为亘古不变的真理,每当科技迭代出现新的生产力工具,都会有相应的课程出现,当年Word的使用也是一门技术,路边的打印店甚至招了很多年“打字员”,而如今打字员早已经不是一个职业,而是每个打工人都必须掌握的技能。
假以时日,使用AI工具或许也会成为每个打工人必须掌握的技能,但就目前而言,这仍是一个新兴就业岗位,各位也没必要因为科技进步而焦虑,毕竟机遇总是伴随危机出现,机会也是给有准备的人。