OpenAi发布的Sora，送给A股800亿开年红包

作者：钛媒体APP发布时间：2024-02-23

图片来源@视觉中国

文 | 贝克街探案官，作者 | 镇西

没想到今年第一个引爆科技圈的消息，还没等复工就刷了屏，复工后又直接推动相关企业市值爆拉，A股25家相关企业市值共计增长888.42亿元，两个交易日平均涨幅26.94%。

2 月 16 日凌晨，OpenAI 发布首个文生视频模型 Sora，是OpenAI继ChatGPT之后，推出的另一款具备颠覆行业能力的AI应用，Sora能够仅仅根据提示词，生成60s的连贯视频，远超行业目前大概只有平均“4s”的视频生成长度。

“平均4s”的长度指代非常明显，就是Runway和PIKA。也曾短暂引爆过A股文生视频的炒作，但无论是强度还是持续性，都远不如Sora。

在Sora问世之前，Runway和PIKA被视为文生视频领域的龙头，但在sora生产的视频出现后，业界普遍认为Sora可以吊打Runway和PIKA。

Pika创始人郭文景曾在接受采访时表示，“视频现在没有很好的算法，它不是一个规模化的问题，不是说现在大家的GPU不够多，很多时候其实是算法上还没有很好的一个思路。”并认为Sora的发布“是一个很振奋人心的消息，我们已经在筹备直接冲，将直接对标Sora。”

和Runway和PIKA相比，Sora产出的视频时间更长，连贯性更好，其他模型产出的视频甚至还有卡顿、场景突变等问题；在此基础上，Sora的视觉细节更丰富，且清晰度更高。对比Sora和runway的视频不难发现，Sora的视频内容更符合常人对“视频”的理解，而runway的视频内容更像是“GIF”动图。

业内普遍认为，Sora的出现，预示着一个全新的视觉叙事时代的到来，它能够依据客户的文本提示，将人们的想象力转化为生动的动态画面。Sora作为一款通用的视觉数据模型，其卓越之处在于能够生成跨越不同持续时间、纵横比和分辨率的视频和图像，甚至包括生成长达一分钟的高清视频。

从成片来看，假以时日，伴随熟练运用Sora的工程师、自媒体人越来越多，电影业恐将在此次技术变革中迎来一次大洗牌，毕竟每一部影视作品成片之前都要先有个好剧本，好剧本问世后，用Sora就可以实现视频输出了。

但就目前而言，实现这个目标为时尚早，因为整个Sora产业链正处于萌芽期，国内目前尚未有一家公司可以与之抗衡，就连字节都直言“Boximator”目前还无法作为完善的产品落地，令人略有欣慰的是，已经涌现出大批企业试图搭上Sora的快车。

这也不禁让人想起ChatGPT发布后，大量企业跟进推出“自研大模型”，并不断呼嚎赶超OpenAI，结果人家这次直接来个降维，借着推出Sora继续AI应用市场遥遥领先。

01 Sora是否难以复制

Sora采用了Transformer架构，和ChatGPT不同的是，大语言模型通过token将各种形式的文本代码、数学和自然语言统一起来，Sora则通过视觉包（patchs）实现了类似的效果。

Sora和ChatGPT最大的区别，就是Sora为扩散模型，它接受输入的噪声包（以及如文本提示等条件性输入信息），然后被训练去预测原始的“干净”包。

重要的是，Sora是一个基于扩散的转换器模型，这种模型已经在多个领域展现了显著的扩展性，包括语言建模、计算机视觉以及图像生成等领域。扩散转换器在视频生成领域同样具有巨大的潜力，不同训练阶段下，使用相同种子和输入的视频样本对比，结果证明了随着训练量的增加，样本质量有着明显的提高。

Sora研究员专门训练了一个网络，专门负责降低视觉数据的维度。这个网络接收原始视频作为输入，并输出经过压缩的潜在表示。Sora模型就是在这个压缩后的潜在空间中接受训练，并最终生成视频。此外，研究员还设计了一个解码器模型，它可以将生成的潜在表示重新映射回像素空间，从而生成可视的视频或图像。

当给定一个压缩后的输入视频时，从中提取出一系列的时空包，这些包被用作转换token。这一方案不仅适用于视频，因为视频本质上就是由连续帧构成的，所以图像也可以看作是单帧的视频。

通过这种基于包的表示方式，Sora能够跨越不同分辨率、持续时间和纵横比的视频和图像进行训练。在推理阶段，研究员只需在适当大小的网格中安排随机初始化的包，就可以控制生成视频的大小和分辨率。

仅从原理层面来看，推出Sora这种文生视频大模型并不难，但国产厂商在推出进度上纷纷落后于OpenAI，此前曾有消息称字节推出了Boximator，它可以通过文本精准控制生成视频中人物或物体的动作。

对此，字节跳动相关人士回应称，Boximator是视频生成领域控制对象运动的技术方法研究项目，目前还无法作为完善的产品落地，距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。

其他发布公告的企业，要么是想要介入这个赛道，要么就是可以为该行业提供硬件设备支持，因为A股市场中没有文生视频的企业，所以退而求其次，找到了一家文生图产品获得市场认可的企业炒作，即因赛集团，该公司的InsightGPT的文生图功能已在时尚珠宝和快消两个赛道的营销领域商用，并且具有一定市场认可度。

其他的则是一些算力租赁公司获得市场爆炒，至于想要切入这个行业的公司就更多了，不胜枚举。

02 Sora商用，会切走谁的蛋糕

Sora之所以会引起市场轰动，主要是因为其“文生视频”的功能直接让影视从业人员集体焦虑。

北京天工异彩影视科技有限公司的副总裁兼CTO周辉公开表示，Sora生成的视频质量足够震撼，可以缩短电影拍摄周期。

其实周辉的表达还是保守了，只要Sora工程师足够多，硬件设备不受限，整个影视业的演员都可以省了，动辄过亿的演员费用也可以省下，那现在已经成名的影视剧明星，想要上镜就要另谋出路，当然制作方也可以获得已成名演员的授权后上镜。

同时场地租赁、置景等费用也会随之下降，这也给了很多非专业团体在影视业一展身手的机会，换言之，今天是影视业最容易的一天，以后每一天都比今天难上加难，值得注意的是，这一逻辑对视频依赖较大的广告业也通用。

除此之外，国内刚起步的科幻电影可发挥空间也将瞬间提升。之前一直说《三体》影视化不成功，是因为很多场景制作困难，而Sora的出现，可以有效解决这个问题，C 内容的专家化也将创造新的风格与形式，增强影视内容的吸引力与丰富度。用人方面，特效师因为具备基础的工作逻辑，培训周期也比其他没有经验的人群更短。

但在Sora工程师大规模入局之前，短期Sora还是一个工具性产品，某种程度上帮助影视制作方降本增效。

除影视行业外，游戏行业也将借助Sora产生巨大变革，Sora对于物理世界的理解和模拟可以与游戏场景开发高度适配，Sora可以帮助游戏开发者创立角色或背景故事。OpenAI也在Sora技术报告中提出，Sora能够模拟如视频游戏的数字化过程，根据官方视频演示，Sora能在控制《Minecraft》游戏角色进行基本操作的同时，高质量动态渲染游戏世界。

可以预见，Sora未来将可能被应用生成游戏动画和场景等，增加游戏情感故事背景提高可玩性，游戏开发者的成本也将随之降低。简言之，又会有部分人因此面临岗位变动。

03 学会使用AI工具

这种背景下，不会使用AI工具的从业者将会伴随科技进步，被时代无情淘汰，而掌握AI工具的外行业，跨行也不会再体会“翻山越岭”般的困苦，当今大量自媒体从业者，也有机会进一步落地自己的创意。

至于卖课教别人怎么使用AI工具的机构，谁让人家先掌握知识呢，“知识就是力量”已经成为亘古不变的真理，每当科技迭代出现新的生产力工具，都会有相应的课程出现，当年Word的使用也是一门技术，路边的打印店甚至招了很多年“打字员”，而如今打字员早已经不是一个职业，而是每个打工人都必须掌握的技能。

假以时日，使用AI工具或许也会成为每个打工人必须掌握的技能，但就目前而言，这仍是一个新兴就业岗位，各位也没必要因为科技进步而焦虑，毕竟机遇总是伴随危机出现，机会也是给有准备的人。