Sora让整个行业又兴奋起来。字节辟谣中国版Sora,周鸿祎火速“追星”,李一舟趁热卖课,一众上市公司夹杂着“颠覆性、里程碑、加速器”等关键词舞动资本市场。
又一次创业机会,还是新一轮赶超焦虑,是看待Sora拨云见日的两条线索。
“没钱,没卡,没人才,差距在拉大”,这是人们在惊叹其高超能力的同时,一种有关羡慕与追赶的技术焦虑。正如字节回应“中文版Sora”,目前无法作为完善产品落地,与国外有很大差距。但也有人认为,Sora的出圈是AIGC深入人心的新契机,有助于更好地推动国内AIGC产业的发展。
像是大航海,不知道有没有终点的时候,一切都是漫无边际的。一旦有人登上了新大陆,就是给全世界的证明,终点就在那里。从ChatGPT到Sora,相同的问题又一次摆到AI厂商面前:如何追赶?如何找准落地场景?如何实现数据飞轮?
新“AI行情”?
热点最容易在资本市场掀起巨浪。连续爆发两日后,2月21日,Sora题材股表现分化。截至当天收盘,因赛集团、当虹科技等涨超10%,新易盛、中际旭创跌超5%,万兴科技、东方国信等跌超4%。
其中因赛集团已获3连板,近4个交易日累计大涨超88%。
不久前,因赛集团还在投资者互动平台表示,公司自研的InsightGPT属于营销行业应用层垂类模型,与Sora这类底层通用大模型并不属于直接竞争关系,反而可以结合Sora等通用大模型丰富自身视频素材库以及提升视频生成效率和品质。
股市的起伏和公司的回应,是市场狂热的一面,一如一年前ChatGPT的横空出世,再次掀起一股熟悉的“AI行情”。
不过,Sora虽然复刻了ChatGPT所带来的轰动,却没能在市场上复刻出同样的创业风。取而代之的是,一种有关技术的焦虑正逐渐蔓延。
文生视频并不是个新鲜事,但与Sora相比,时长是以往文生视频最大的“硬伤”。
一位大厂的业内人士对北京商报记者提到,国内公司的文生视频产品,都是基于大型语言模型(LLM)和传统的视频生成AI集成的结果,生成的视频长度都是秒级,且简单场景。
据了解,在Sora发布之前,Runway和Pika普遍被认为是视频生成赛道的佼佼者,但前者仅能生成4秒的视频,后者则只能提供3秒的视频。Runway的用户可以将生成的视频最长延长至16秒,而这已经是AI生成视频在2023年所能达到的最长时长纪录。
“三四秒和一分钟,是天差地别的。”
在接受北京商报记者采访时,无界AI联合创始人马千里提到,对于AI生成视频来说,随着生成时长增长难度指数级上升,更长的视频意味着更高的一致性要求、更详细的画面描述,对算力的消耗也是远超此前水平的。
Sora的另一项突破则在于其对物理世界部分规律的理解,而这也正是过去文生视频模型的一大痛点。
OpenAI又一次用“暴力美学”征服了世界。向量数据库企业Zilliz开发者关系及市场运营总监李晨对北京商报记者概括称,量变再一次带来了质变,大规模高质量的训练数据为Sora带来了“颠覆性”的世界观,去理解虚拟世界的物理规律。
“没钱,没卡,没人才,差距在拉大。”谈及当下的真实感受,上述业内人士做了这样一句概括,在他看来,前两者的客观环境也在一定程度上限制着人才的回流。
此外,万亿级别公司的玩家才能持续的事情,国内云计算大厂跟起来也很吃力,而且大厂也要考虑投入产出,“总之挺难的”。
在人才角度,伽利略资本合伙人郑譞也对北京商报记者提到,目前国内真正具有大模型经验、了解大模型的技术专家还太少。
而通过与其身边少数从业者的交流来看,压力也是显而易见的。郑譞称,除技术外,焦虑还普遍存在于包括算力等方面资源的充沛程度上,“相比于原来的大模型,文生视频的计算量是一个‘天文数字’,而国内具备这样算力基础的AIDC(人工智能数据中心)数量屈指可数”。
不过马千里认为,Sora破圈最重要的意义其实在于教育了客户,让外界重视了AIGC产业,从而进一步推动国内AIGC产业的发展。
“虽然有压力,但总归是一件好事,这不仅是舆论层面的判断,从技术上看,Sora跑通了这条路,其他人也会更有信心投入这条技术路线,而这对于技术的发展通常也是至关重要的。”马千里称。
魔鬼营销
Sora所引发的焦虑,一部分来源于技术本身,另一部分来源于“颠覆性”的营销。
一段时间以来,“颠覆性”成了Sora最大的标签,一传十、十传百,在公共空间营造出了一股所向披靡的架势。
Sora的颠覆究竟是技术层面的彻底革新,还是原有路线的进一步成熟?这或许是于狂热的市场氛围中,理性看待Sora“冲击波”的一个关键起点。
广发证券认为,在底层基础技术原理上,Sora并未有实质性的突破,或应更多理解为类似于ChatGPT,基于同样的技术原理,在暴力美学下的又一次重要“量变”。
香颂资本董事沈萌也提到,从技术架构来看,Sora其实并没有脱离大语言模型本质,仍是基于深度学习的框架。
马千里解释称,从底层架构级技术角度看,Sora的确没有很多创新,DIT技术中Diffusion和Transformer都是几年前的技术了。但Sora的特殊之处在于,它率先实现了大规模的工程化,也就是说把原本应用于文本领域的Transformer技术大规模、成熟地应用在了文生视频模型当中。此外,它还进行了很多工程层面的创新,比如视频时空块Patch技术等。
郑譞也提到,虽然Sora的效果非常惊艳,但还不能称为理论基础上从无到有的颠覆,但这并不意味着工程上的颠覆就不是颠覆。“当工程量呈现指数级的上升时,一定会出现各种见都没见过的问题,解决这些问题本身可能就是一种颠覆。”
Sora另一种层面的“颠覆”,集中体现在外界对Sora取代影视行业从业人员的担心上,一如当年ChatGPT所引发的行业替代焦虑。
不过在沈萌看来,目前Sora只是公开了一些官方视频,很少有人实际应用,所以其效果到底如何是没有定论的。而OpenAI CEO奥特曼又是一个极度擅长营销的人,他一定想通过这样的方式最大程度地放大OpenAI的估值。
由此,Sora也同步进入了被“祛魅”的过程。广发证券分析称,Sora的主题意义更为显著,商业化进程仍需观察,一方面,技术文档提到的当前局限性需逐步解决;另一方面,版权合规、内容伦理等课题仍是AIGC类应用需要克服的挑战,文生视频也不例外。
上述业内人士也提到,Sora生成效果堪称惊艳,开启了世界模拟器的进步,但还说不上颠覆性。大模型也出现了涌现,能够理解物体的时空关系,但还不完善。
是不是一条对的路,业界也有不同声音。“而且有很大的不确定性在于,训练成本和推理成本如何不清楚”。上述业内人士称。
“相较于大语言模型或者文生图模型,文生视频模型更耗算力,比如3090的显卡燃烧一分钟才能生成一个4秒钟的视频,高并发情况下成本更是会骤增”。马千里以无界AI的文生视频技术为例,提供了这样一组数据。
他解释称,从绝对总量上看,推理成本一定是占到大多数的,特别是推广向C端和B端用户的时候,这种情况会更明显。因为训练通常是一次性支出,而推理的边际成本很可能是递增的,越多人使用,算力压力就会越大,成本就会越高,进而影响其商业化。
让子弹再飞一会儿
判断一件事情火不火,一个关键的“指标”就是有没有人卖课。
Sora发布不到一周,尚未对公众开放测试权限,卖课视频就已经先一步泛滥于闲鱼、小红书等平台。北京商报记者以“Sora文生视频”为关键词在闲鱼上搜索,共呈现59条相关内容,价格从9.9元到169元不等。
这些“教程”广告中,一张以“Sora一键文生视频”为标题的海报被广泛使用。海报内容显示,资料包含“你的Sora专属提示词库”“Sora专属提示词教程”“30个Sora专用提示词技巧”三方面。
而透过卖课的“割韭菜”,或许不难摸索国内科技产业发展的乱象和虚火。沈萌称,国内产业的生命周期大多以抄概念为起点,然后大举跟上,进而衍生一些浅层的应用,进行融资、套项目,最后上市或进行各种程度的资本变现,至此这股风就算过去了。
“整个环节认真、踏实做事的比例很小,这反映出的问题,其实就是不知道自己在干什么,‘肚子里’也没有相应的积累”。沈萌说,越是可替代,越是价值低,这就是国内AI产业的现状,而当我们跟别人没有差异的时候,也就只能拼价格。
沈萌总结称,投资者或者机构都觉得AI是风口,疯狂砸钱,但没有人去分析砸钱的最后能砸出什么东西,“如果最后的结果是要进行价格的红海竞争,这种项目是铁亏无疑的”。
在他看来,AI领域的研发创新,永远是基于之前的成果的,就像是两个飞轮,不断给对方以动能,加速对方的旋转。所以AI领域的领先,才会出现一步领先、步步领先的情况。“遗憾的是,在这一领域,国内企业处于的其实是一种‘跟进’上的应接不暇”。
李晨也分析称,很多有技术能力的公司之前就已经布局了多模态,但是软硬件上的差距还是比较明显的,“我们要正视差距,而不是一味地蹭热度和讲故事,OpenAI也是憋了一年的大招才把Sora放出来,这种精神值得技术企业学习”。
在李晨的观察中,整个2023年,我们在迅速形成共识的前提下迎来了AIGC的高速发展期,在通向真正AGI的道路上我们看到了算力、算法和数据的明显差距。
但李晨也提到,旺盛的需求和市场的潜力同样带来了希望。
据马千里介绍,目前无界AI的文生视频技术已经在逐步商用过程中了。不久前,无界AI刚刚联合中国联通,在浙江面向C端用户推出AI生成的视频彩铃订阅业务。
有消息称,2023年12月至今三个月内,已有包括万兴科技、博汇科技、易点天下、数码视讯、汉王科技、当虹科技、东方国信等在内的十余家A股公司,在投资者互动平台披露过视频生成模型领域的业务情况。
郑譞认为,大模型里面到底能装多少现实世界的知识,目前还没有特别明确的判断,也就是说Sora并不是AI的终点,未来还有很大的发展空间,最后是谁领先还不好说。
“所以面对Sora带来的挑战,不妨让子弹再飞一会儿”。郑譞说。
北京商报记者 杨月涵