[ 就目前国内在大模型领域的布局来看,主要分为两派——一派是以阿里、百度、腾讯、字节为代表的互联网大厂,其所产出的大模型产品不同于美国自实验室孵化成熟再推出的路径,多从产业角度出发,如百度文心一言结合搜索业务,腾讯通过混元大模型技术提升广告效率,阿里通义千问结合自身生态产品进行提效,抖音原CEO张楠调任剪映,将AI技术应用于视频创作。另一派是从技术侧入手的创业公司,尤以清华系为重。 ]
OpenAI旗下文生视频Sora爆火之时,国内大模型初创企业头部之一的月之暗面(Moonshot AI)传出最新融资消息。
据称,月之暗面在完成新一轮融资后,估值已达约25亿美元。这轮融资是由红杉中国、小红书、美团、阿里等投资方参与,且是国内AI大模型公司迄今获得的单轮最大金额融资。
此次融资动作,阿里与美团站到同一阵列。此前,另一家头部大模型企业智谱AI最新融资列表中,美团、蚂蚁、阿里、腾讯在列。王小川创立的百川智能资方中,也有阿里、腾讯、小米的身影。
面对微软加持OpenAI、亚马逊与谷歌加持Anthropic的巨头阵列,以及复杂的宏观环境,国内大厂与大厂之间、大厂与大模型创业公司之间,选择了牵手的形式,下注人工智能2.0赛道。
作为AGI(通用人工智能)领域的信号灯,此次OpenAI推出Sora的成功,轻易掩盖掉AI视频创业公司此前的光芒,给国内希冀通过垂直行业应用落地实现弯道超车的路径,蒙上了一层阴影。
Sora拉起新一轮大模型热潮
Sora的面世将人工智能热潮再次拉到新高度,360集团创始人周鸿祎感叹:Sora的出现意味着AGI的实现从十年缩短至一两年。从OpenAI发布的样片来看,Sora不仅展现了视频画面的前后一致性,也展现出基本符合现实世界物理规律的画面效果。
兴奋之余也需冷静看到,一方面Sora产出的视频内容仍存在不符合物理规律的问题。另一方面,文本转视频模型并非OpenAI首创,该领域中此前已有Google推出的Lumiere、Stability AI推出的SVD、Meta推出的Emu Video等,相关产品技术已被影视制作公司使用制作影视特效。
真格基金管理合伙人戴雨森表示,很多人现在对Sora的期待短期会落空,是因为将Sora直接类比ChatGPT,实际上类比GPT3更合适。Sora通过学习海量视频使得AI开始涌现对物理规律的理解,这与GPT3通过学习海量文本使得AI开始涌现对语言+知识的理解很像。但需注意,GPT3刚面世时也是一个问题很多、很难用的模型,经过了几次模型和产品的迭代,两年后才有了一个完整的ChatGPT产品问世。
IDC 中国研究总监卢言霞表示,Sora是生成式AI在文生视频领域真正迈出了第一步,做到生成式AI驱动生成短视频。接下来也将刺激其他科技巨头加快在该领域的技术攻关力度以及产品发布速度。但未来具体哪些公司能在什么时间点推出与Sora类似的产品,不可预测。当前Sora生成的是1分钟的视频,对于行业已经是重大突破,下一步何时能生成2分钟或5分钟以上的视频,也不可预测。
但目前最先应用落地的领域将是短视频、广告、互娱、影视、媒体等。在卢言霞看来,这些领域采用多模态大模型能力辅助人类员工生成视频,既可以提高生产速度又可以提高生产数量,还可以创造全新的视觉感受,能够帮助企业真正实现降本增效、提升用户体验。
在万兴科技AI创新中心总经理齐博看来,OpenAI采用DiT等技术实现“世界模拟器”,达到理解真实世界的运动和物理能力。它用于文生视频,可以生成超逼真的符合物理和运动学的复杂场景的视频,也就是说,可以理解和模拟真实世界。理解和模拟真实世界是AGI的关键一步,能够加速通用人工智能的实现。
此次Sora的成功在齐博看来是因其依然遵循OpenAI的Scaling Law,大力出奇迹,采用了大量数据、大模型与大量算力。Sora底层采用了游戏、无人驾驶和机器人领域验证的世界模型,构建文生视频模型,达到模拟世界的能力,具体采用DiT(Diffusion Transformer),处理不同持续时间、分辨率和比例的视频/图像。
世界模拟器是AI生成视频的另一种方式,齐博认为,它的成功会带动视频生成赛道的发展,加速视频生成的创新和成熟。
Sora背后的多模态趋势
OpenAI凭借此次Sora的爆火一举将生成式AI的关注点从文生文、文生图拉高至文生视频。一位行业人士表示,如果说AIGC(生成式人工智能)是AI领域皇冠,那么文生视频就是皇冠上的宝石。而Sora的出现意味着大模型的竞争到了比拼多模态,也是大模型技术最后一块拼图的阶段。在国内市场从业者眼中,这是他们正在追赶但尚未达到的目标。
清华系背景的杨植麟在2015年从清华计算机系毕业后,前往美国卡内基梅隆大学攻读博士,师从苹果AI研究负责人Ruslan Salakhutdinov和谷歌首席科学家William Cohen。
虽从2020年开始确定“大模型是未来”的趋势,但在2023年之前,他认为亚洲可能并不存在做大模型公司的机会。但从2022年年底,杨植麟的判断开始发生很大变化,因GPT在美国市场已引发很大关注。
如今行业对大模型的议题已从ChatGPT变为Sora,杨植麟表示,多模态过去几年卡在架构上,缺少真正通用的模型。预计2024年月之暗面也会推出多模态产品,但公司的目标是在大模型领域做To C超级应用。
智谱AI成立于2019年,由清华大学计算机系知识工程实验室的技术成果转化而来。其创始人张鹏表示,智谱AI可能是国内最早一批开始做大模型和技术研发的团队。
谈及OpenAI,张鹏表示智谱AI和OpenAI最重要的一个相似之处是目标相同,都希望能够实现AGI,且都认为大模型是实现AGI的必经之路,因此双方在发展路径有相似性。但智谱AI也并不是完全按照OpenAI的路径发展。不同于比较主流的GPT,智谱AI采用的是全自研的GLM(通用语言模型)预训练框架,这也是张鹏认为有可能超越OpenAI的机会。
在张鹏看来,从2020年开始,国外的一些顶尖的公司不再选择开源路线,学术界关于大模型的研究和技术上的细节也不再公开,国内研发团队相当于走进了“无人区”,前方没有可供参照的道路,而一个千亿参数规模的大模型研发成本动辄上千万,试错成本巨大。
谈及美国率先进行多模态落地的动作,张鹏对记者表示,首先国外先产生多模态的概念与技术。其次,商业化路径上,国外会先热一阵子,国内在一定程度上进行跟进,这与双方的创新生态有关。相较而言,美国市场与投资者更愿意去采纳新的技术,再进行孵化,也允许行业发生失败,在更替的循环中催熟技术与市场。而国内市场更多会选择寻找一个合适的时机切入,而非上述创新试错过程,这属于双方在生态上的差异性。
至于多模态技术本身,张鹏表示,对于AGI来说,多模态这件事情是必须要去解决的,这个能力必须拥有。包括模型本身能力提升所带来的类似CoT(思维链)这样的高阶能力,便根植于底层的基础模型能力。包括智谱AI在内的多家公司已经在做了。
面壁智能CEO李大海表示,公司在多模态结合方面处于进行中状态,当技术研究到一定程度后会选择接入。在清华大学计算机系长聘副教授、面壁智能联合创始人刘知远看来,多模态大模型方向反而是国内与国际差距相对较小的方向,该方向与自然语言处理领域大模型相比,成熟度还不够,技术路线也不明确,包括此前各类的模型架构尚处于百花齐放的过程。刘知远认为,未来一两年内可能会形成一个类似于ChatGPT的模式来支持面壁智能将多模态的工作做得更好。
赶超OpenAI的路径到底是什么
从文生文的ChatGPT,到文生图的DALL·E,再到此次文生视频的Sora,OpenAI每次发布的产品都将业界目光吸引。国内市场也在不断追问——距离OpenAI还有多远?
谈及与OpenAI之间的差距,杨植麟表示,追赶的过程需要时间与技术创新。一方面后发优势可以利用OpenAI等先行者已做出的工作与成功。但客观上需承认,双方差距很大。长期来看,AI是异质化的,不同人面对的AI维度不同。另外,AI模型的自建也不存在超越与否的问题,不同工具在不同场景上的优势也不同。
就目前国内在大模型领域的布局来看,主要分为两派——一派是以阿里、百度、腾讯、字节为代表的互联网大厂,其所产出的大模型产品不同于美国自实验室孵化成熟再推出的路径,多从产业角度出发,如百度文心一言结合搜索业务,腾讯通过混元大模型技术提升广告效率,阿里通义千问结合自身生态产品进行提效,抖音原CEO张楠调任剪映,将AI技术应用于视频创作。另一派是从技术侧入手的创业公司,尤以清华系为重。
两大派别虽在通用大模型与垂直行业模型领域投入力度有所不同,但均对应用端寄予厚望。多位投资人对记者表示,目前国内市场在大模型领域的最大机会在于应用层面。BV百度风投CEO、管理合伙人高雪表示,在目前的市场上,想要找到既能训练出好模型,又有充足的私有数据,同时实现数据飞轮的项目,是一件比较有挑战的事情。针对大模型应用层面,由于海外生态发展繁荣,大量底层模型已趋成熟,提供了很多可接入的API。而中国刚刚开始,还需要时间去成长。一类是训练AI做个人助理类型,第二类是情感陪护类型。
渶策资本创始合伙人胡斌认为,底层大模型虽然很卷,可中国也有自己的机会。在人工智能的赋能下,垂直领域会有很多的颠覆出现,它的组织形式和用户的入口和人机界面的形式都会发生革命性的变化。
至于大模型应用的具体应用,包括百度、腾讯等的相关负责人均强调,是指从大模型原生能力出发诞生的新应用,而不是借助大模型技术对原有应用的升级。这在美国的AI视频领域已呈活跃态势,如Runway宣布其AI视频生成工具Gen-2更新;Meta宣布推出两款AI驱动的生成模型——Emu Video和Emu Edit;靠AI绘画走红的Stability AI发布AI模型Stable Video Diffusion;AI视频工具Pika1.0发布,效果媲美Runway的Gen-2。
彼时,不少投资人认为Pika是OpenAI经历“政变”后的潜力股,但Sora的面世给应用层公司敲响了警钟,通用大模型的升级一举打破此前Runway、Pika在该领域的领先优势。Pika创始人郭文景也回应称“已经在筹备直接冲,将直接对标Sora”。可以说,OpenAI通过Sora的成功,直接证明了通用大模型相较垂直模型的优势。在架构与算法明确的前提下,通过大规模数据与大算力加持,便能够实现垂直领域应用生成的“暴力美学”。
张鹏也持有类似观点,他对记者表示,技术发展过程需要分层,这是一件阶段性的事情。不做通用大模型,在垂直行业的落地效果未必能达到客户要求。不去做垂直模型,很难知道客户在想什么,也就不知道技术能帮助客户提升的价值到底有多少。
但通用大模型所耗费的巨大成本,是限制如今大厂与创业公司大模型训练的重要因素,也是目前诸多大模型公司在权衡利弊之下推出小规模参数模型的重要原因。在行业人士看来,通过应用与技术的双轮驱动,即大模型应用产生的数据反哺模型本身,迭代发展,倒逼底层技术突破,或许是一条可行路径。
整体来看,客观上承认差距、主观上继续追赶仍是2024年AI领域的主题。张鹏表示,技术层面,OpenAI确实没有太多神秘的地方,且有很多原创的技术也不是OpenAI发明的,但它把这些技术发扬光大或做到极致。从技术工程和落地上来看,这就是一件了不起的事情。ChatGPT从技术原理、工程化、应用到市场,是一个非常紧密的闭环,很难单独割裂来看。
张鹏称,预计在2024年,大模型市场将从野蛮生长回归冷静,对于大模型的投资与炒作将会告一段落,行业焦点也将从模型本身转向寻找应用。