AI视频中看不用？百度不做视频模型的原因很简单

作者：三易生活发布时间：2024-11-06

自打ChatGPT让人工智能这个概念迎来第二春，百度创始人李彦宏也重新活跃了起来，成为了几乎是最爱发声的互联网大佬。在此前先后发表AI终结程序员、开源模型会越来越落后等言论之后，有消息称在最近举行的百度2024年第三季度总监会上他又放话，“百度不碰Sora类的视频生成。”

那么他对Sora这种文生视频模型泼冷水，到底是因为百度有力未逮，还是认为文生视频模型做不出商业价值呢？尽管目前百度方面并没有推出视频模型，国内市场也基本是快手可灵与抖音即梦在打擂台，但尚未涉及文生视频赛道的百度也并不属于“吃不到葡萄就说葡萄酸”。毕竟作为国内率先押注AI的厂商，百度的技术实力无需多言。

况且类似Sora这样文生视频模型的技术原理并不晦涩，OpenAI都已经把Transformer架构+扩散模型的组合摆在了台面上。除了抖音和快手拥有大量可用于训练的短视频资源之外，与爱奇艺关系匪浅的百度显然也不会缺少训练这类模型的语料。所以问题的关键，很可能在于视频模型本身的盈利能力存疑。对此李彦宏表示，Sora这种视频生成模型的投入周期太长，10年、20年可能都拿不到业务收益。

此前在今年年初，OpenAI放出的Sora确实给了外界巨大的震撼。毕竟在Sora亮相之前，业界最好的文生视频产品Runway、Pika，也都只能做到生成一段不到十秒的视频，与其说它们生成的是视频、还不如说是一段GIF，而Sora当时就做到了生成连贯的一分钟视频，且展现出了在多角度多镜头切换中保持一致性，以及遵循现实世界物理规律的能力。

在短视频席卷全球的情况下，当时Sora的出现曾被外界认为是实现“技术普惠”的曙光。Sora的横空出世也直接开启了视频模型的“大跃进”，包括海外的Runway、Pika先后进行迭代，开始逐步追上了Sora的水平，而国内市场的快手可灵、抖音即梦两大最成熟的产品则实现了“青出于蓝而胜于蓝”。只是各方针对视频模型的军备竞赛似乎真的只是为了秀技术，业界也不约而同地选择性了忽略成本问题。

此前，风险投资机构Factorial Funds曾以Sora的理论基础Diffusion Transformers为基准，对Sora的成本进行过相关测算。根据他们的说法，训练视频模型比常规大语言模型的成本高出了数倍，OpenAI训练Sora是用4211至10528片英伟达H100 GPU训练了1个月。并且一旦Sora推出后，在Tiktok和Youtube上得到广泛的应用，那么OpenAI需要的算力就相当于72万张H100。

到目前为止，OpenAI手里的H100 GPU可能也不会超过10万片，就算使用“潮汐资源”也覆盖不了如此巨大的算力缺口。事实上，算力卡还仅仅只是硬件成本中的一部分，运行这些GPU所需的电力同样也是天文数字，以每片H100的功耗为700W计算，72万片的总功耗就将达到50.4万千瓦，而‌大亚湾核电站的总装机容量为612万千瓦，所以这也是为什么微软、谷歌等大厂会盯上核电的原因。

更为致命的一点，是目前的视频模型可用性远低于大家的想象。Sora这种生成具有连贯性的1分钟长视频还仅存在于理论中，现实情况是视频片段的一致性问题到现在都没能得到解决，生成视频的时间一长、AI就会放飞自我。以快手基于可灵打造的短剧《山海奇镜之劈波斩浪》为例，它实际上并不是由多个一分钟视频拼接起来，而是由可灵生成了海量5秒时长的分镜头，再由后期剪辑团队剪辑而成。

同理，使用Sora生成的短片《气球人》也不是纯粹使用AI生成，同样也是人类团队后期加工的结果。此外，所有的AI生成视频模型都说要做世界模拟器（world simulators），但现实是AI对于物理规律的理解还是伪命题，如果不进行后期调整，AI直出的视频会相当之呆板。

由于AI文生视频只能在数秒内实现内容的一致性，所以对于创作者的价值确实不算大。按照目前快手可灵、Runway视频模型的收费标准，平均生成一段5s的视频收费在0.5—2元不等，再加上比一般视频更高的后期成本，算下来还真不如全人工拍摄。这也就能解释OpenAI的Sora为何雷声大雨点小，AI视频生成产品Luma AI在9月的总访问量环比下跌38.49%、Pika总访问量环比下跌9.78%了。

其实抖音、快手押注视频模型是有迹可循的，毕竟这也是短视频平台实现“人人皆是创作者”的机会。用户不需要懂得任何视频拍摄、剪辑的知识，足不出户就能把文字变成视频，这对一个强调内容供给，主打无时无刻满足用户的平台来说，他们对于创作者的渴求显然是无穷无尽的。所以即梦、可灵的存在，代表平台可以为每一位用户插上创造的翅膀，因此就算再烧钱，快手和抖音也会做下去。

可百度完全不一样，尽管他们确实有短视频业务，但之于百度还能算得上是“甜点”。再加上百度从来都不是一个以内容见长的互联网厂商，也没有自己的短视频平台，所以如果贸然去做Sora类的视频生成模型，又要从哪里收回成本呢？因此这样看来，百度确实不该做Sora，真正应该去做的反而是腾讯。

本文来自微信公众号“三易生活”，作者：三易菌，36氪经授权发布。