最近这几天,OpenAI的文生视频模型Sora毫无疑问是互联网话题的中心,更成为了AI界新的顶流。关于Sora的魅力,用周鸿祎的话来说,“去年这个时候GPT实现了第一个突破,实现了对人类语言的理解,解决了机器和人之间对话的问题。Sora的突破在于,它实现了机器对这个世界的感知、观察和交互的能力。”
Sora走红后,自然就少不了想要蹭这个热度的企业。比如国内知名游戏厂商盛趣的高层就表示,Sora是体现ChatGPT大语言模型逻辑的“世界模拟器”,其潜力远超影片生成工具的范围,落地AI文生视频技术对于游戏研发团队来说是充满吸引力的选项,盛趣也对AI视频生成技术接入实际研发管线保持乐观。
又比如网文平台中文在线日前宣称,从目前的公开信息来看,Sora在相当程度上会进一步提高生产效率、降低制作成本,其所拥有的海量IP未来或可运用Sora或类似应用生成短剧/短视频,通过现有成熟短剧或短视频营销等商业路径进行规模化、商业化的变现。
虽然目前Sora并未对公众开放,但许多人都已经认为它将能够改变视频创作市场的格局。Sora的出现就意味着像电影这样的专业长视频内容可能会进入“创作平权”时代,消解内容平台的话语权,这个观点如今在影视圈也很有市场。毕竟Sora代表大家不再需要费劲地去学习操作PR、AE等工具,也不用搜集素材,只需要有一个脚本交给Sora,就能得到一段高质量的视频。
尽管这样乐观的情绪已经弥漫在游戏、影视、短视频等,可能被Sora赋能的赛道,然而AI行业的从业者对于Sora的态度就要理性得多。比如猎豹移动董事长傅盛就在直播中表示,Sora这次的突破并不代表技术上的重大升级,更可以理解成是一个暴力美学。
事实上,即便抛开技术不谈,决定Sora到底是一个改变视频创作的“王炸”、还是一个玩具,核心问题就是被不少人选择性忽略的成本。
成本方面的颠覆正是现阶段Sora被外界寄予厚望的关键因素之一,可如果使用它的成本比现有模式更高呢?目前,受邀用户在X、Reddit等社交平台上,已经在陆续分享关于Sora的使用体验,除了其对于物理世界的理解依然存在明显瑕疵外,另一个引发广泛讨论的,则是Sora生成视频的时间很长。
根据相关网友的反馈,Sora生成1分钟视频的时间,需要渲染超过1个小时。但也有Redditde用户表示,“如果你计算一下所有典型的动画制作工时,Sora的渲染时间也不是很疯狂了。”
事实上,到目前为止OpenAI并没有公布Sora的训练和推理成本,但其两大王牌产品ChatGPT和GPT-4的价格则是摆在台面上的,其中ChatGPT的每1000个tokens需花费0.002美元,而GPT-4的每1000个tokens要花费0.002-0.006美元。
只是文生视频模型对于算力的要求必然会更高,而且大模型的推理成本是递增的,也就是用的人越多、算力要求越大。要不然,OpenAI CEO奥特曼也不会提出所谓筹资7万亿美元建AI芯片基础设施这样的计划。
那么Sora生成视频的成本究竟是多少呢?如今基于GPT-4的文生图工具DALLE-3生成1024x1024的图片需要0.04美元,在Sora之前业界最好的文生视频模型RunwayML Gen2生成7.5分钟视频就需要90美元。尽管OpenAI并未公布Sora的每1000个tokens需要多少钱,但它公开了其技术文档,让外界有机会模糊地推测Sora的使用成本。
按照OpenAI方面的说法,Sora是基于扩散模型的视频生成模型,Sora使用视觉补丁(patches)作为其表示方式,类似于大型语言模型(LLM)中的文本标记,是将视频编码到一个降低视觉数据维度的网络(Video compression network),再将latent转成patches,送入到基于Transformer架构的扩散模型中。因此Sora的工作流程其实与Stable Diffusion非常类似,后者使用自动编码器(VAE)也是将图片压缩到低维度的latent空间。
假如Sora和Stable Diffusion都使用了8倍的空间压缩率,一个1024x1024分辨率的30帧视频大概需要处理8K级别的tokens,同时由于扩散模型的原理就是给一张图片加上大堆雪花一样的噪音,然后让AI去除噪音、还原本真。此外,Sora生成视频还需要进行去噪声操作,而每进行一次去噪,消耗的tokens就要增加一倍。所以如果是去噪步数和Stable Diffusion的30步一样,那么Sora生成视频消耗的tokens就是240K。
以GPT-4的每1000个tokens最低0.002美元计算,Sora生成1分钟视频的成本就在600美元左右。对于专业化的影视、CG渲染来说,这个价格并不算贵,但问题是专业化的影视制作不可能接受Sora生成的视频有不可控缺陷,而对于短视频创作来说,这样的价格又过于昂贵了。
过去AI聊天机器人、文生图能走红是因为便宜,生成一大段话或几张图要不了太多钱,可如今文生视频的成本指数级提升,这就有些麻烦了。