“视频生成大模型”角逐资本市场，谁先跑通商业化？

作者：蓝鲸新闻发布时间：2024-08-05

作者|第一新声琳玉

今年2月Sora发布，一石激起千层浪，如今，只过去不到半年时间，国内外已然进入了视频生成大模型的“百模大战”。

国内来看，前不久字节、快手等大厂出手入局，将行业推向了新的发展阶段。随后，创业公司紧跟脚步，动作频频。仅7月份，就有生数科技Vidu正式上线、智谱AI获亿元融资并全面上线智谱清影、智象未来发布大模型2.0……

在国家创新驱动发展战略的指导下，近年来，人工智能行业得到了政策方面的大力支持。去年《生成式人工智能服务管理暂行办法》颁布之后，全国已有30余省份落实了生成式AI的细化政策及行动方案。近日北京最新颁布的人工智能+行动计划甚至76次提到了大模型。

可见，迅猛生长的视频生成大模型行业，不仅在资本市场炙手可热，更是未来国家需要抢占的战略高地。那么，万众瞩目之下，国内视频生成大模型从技术、产品到应用落地整个产业链的运作情况和商业化进程情况如何呢？

01 产品爆发，行业打响PK战

谈到视频生成大模型，Sora的地位毋庸置疑，但发布至今，OpenAI目前仍未计划向公众开放，业内笑称Sora是“一个只发视频不发产品的巨型期货”。

国外Stability AI、LumaAI、Runway、HaiperAI等明星企业，虽然也相继发布了各自的视频生成大模型产品，但在使用上，一方面，国内外在文化、语境等方面存在差异，另一方面，来自海外政府的限制使用风险仍然存在。

然而，这些挑战并未影响国内AI视频生成市场的增长。据QuestMobile发布的数据，2024年第一季度，生成式AI（AIGC）成为移动互联网行业增速最快、收益最大的行业；今年6月，AIGC类APP的月活跃用户规模达6170万，同比增长653.3%。另有头豹研究院数据显示，预计到2026年，中国AI视频生成行业的市场规模将达到92.79亿元。

外部风险和国内市场的快速发展，成为国内大厂和科技创业公司依据自身优势，研发更具开放性、实用性的本土化视频生成大模型的重要契机。据统计，当前国内已有不少创业公司发布了视频生成大模型，并且大部分为公开可用。

国内主要视频生成大模型对比

高手过招，妙至毫巅。视频生成大模型虽然还不能归类于高成熟度产品，但各厂之间的迭代方向已经非常细化，在视频质量、清晰度、生成时间、速度、多模态指令、运动幅度、创意策划等维度的竞争已经拉开序幕。

其中，快手可灵是近期的高热产品，基于快手平台海量的视频数据优势，可灵能够快速生成符合中文语境和审美习惯的视频，主打对物理世界特性的高强度模拟，还攻克了难倒众多AI的“吃”的问题。

另一大厂字节旗下的剪映上线即梦AI，在视频生成的基础上创新故事模式，能够从提示词到角色、场景，实现想法到成片的快速落地。

此外，阿里达摩院的AI视频产品“寻光”、百度的AI视频模型UniVG虽然都在内测阶段，但从官方发布的信息来看，二者在可控编辑、语义一致性等方面值得期待。

同时，国内创业公司同样也有优秀的表现。近期，智谱AI发布升级后的视频生成模型CogVideoX，C端用户可通过智谱清言的AI视频生成功能“清影”免费无限次使用，至此，智谱AI完成了与OpenAI全模型产品现的的全面对标。

生数科技则联合清华大学发布了国内首发的全自研视频大模型Vidu，由百度智能云提供训练服务，凭借长时长、高一致性、高动态性收获行业的关注。智象未来最新发布的智象大模型2.0，通过创新文字嵌入生成、剧本多镜头视频生成、IP连贯一致性等能力引发市场的关注。

随着生成技术日渐成熟，视频大模型也正在加速通过测试阶段，目前在商业端和非商业端均已有出圈案例。

在商业端，今年夏季关注度较高的综艺节目《歌手2024》，其片头的部分视频画面采用了AI视频生成技术，由上市公司万兴科技推出的“天幕”大模型提供技术支持。同时，博纳影业与抖音合作推出的科幻短剧集《三星堆：未来启示录》、快手原创上线的AI奇幻短剧《山海奇镜之劈波斩浪》也成为视频生成大模型在商业端的初步尝试。截止目前，上述两部短剧作品的播放量已经分别累计达到5316.2w次和5241.3w次。

在非商业端，视频生成对于C端用户而言，作为内容生产工具，可以极大程度的丰富各社交平台、视频平台的内容创作。近期，不仅跨越次元拥抱、AI复活与亲人跨越时空互动、明星换脸等内容频繁出现在热门上，而且利用AI创作的热梗视频如甄嬛传二创、表情包生成视频等内容也获得了较好的传播效果。questmobile数据显示，剪映、快影两大剪辑APP在上线AIGC类玩法后，月人均使用时长分别达到50.2分钟、45.2分钟，同比提升7.1%和15.3%。

快手视觉生成与互动中心负责人万鹏飞公开表示，在可灵大模型上线后，视频创作的效果和ROI大幅度提升，视频创作者和消费者界限逐渐模糊，越来越多消费者变成创作者，对于视频创作生态的繁荣是非常有价值的。

总体来看，国内主要的视频生成大模型产品已经能够达到1080p甚至4K的高清分辨率，单个镜头的视频时长在2-15秒左右，符合影视化的镜头时长需求，但分钟级的长镜头在实现上还存在难度。提示词方面，目前，图生视频、文生视频、视频生视频均处在迭代阶段，视频生成趋势正在由检索生成、局部生成、走向依靠自然语言提示词的全量生成，创作门槛更低、生成内容更加灵活丰富。

02“谨慎”的资本和“挑剔”的用户

在持续奔涌的全球机会浪潮中，金融行业总是积极地奔走在风口的最前端，视频生成式AI能够成为全球爆点，资本在其中承担着重要的助推作用。启明创投数据显示，2023年，一级市场中AI投资金额达到224亿美元，超过前十年投资累计总和。

资本市场，分秒必争，市场的任何变化都有可能影响投资方的态度。爱诗科技创始人兼CEO王长虎曾向媒体表示，去年整个投资环境实际上对视频生成没有太大信心，要获得投资人的认可和投入并不容易。“Sora出来之后，我们也有遗憾，如果在过去一年拿到了更多的资源，也许Sora会是我们自己做出来的。”

时间来到今年，Sora发布后，融资动作明显加速，除近期质谱AI获亿级融资外，爱诗科技、生数科技也均在短时间内连续获两笔亿级资金。新入局的创业公司Sand AI在未发布产品的情况下，已经拿到了数千万美元A轮融资。值得注意的是，今年的国内视频生成大模型投资方中，不乏蚂蚁、百度、红衫、高瓴等知名投资方。并且，从国内外机构调研中能够观察到，在大模型数量、投融规模等方面，中国已经跻身世界前列。可见，国产大模型的实力和来自市场的认可。

但从投资人的视角来看，每只基金的投向受到多重限制。有投资机构透露，目前大手笔投向大模型的案例仍是少数。此外，当前在模型层面的技术争论仍然比较激烈，大多数投资人对模型项目的态度保持相对谨慎，更倾向于寻找已经找到或看到落地场景的应用端项目。

智谱AI CEO张鹏在接受媒体采访时表示：“现在（视频生成大模型）的商业化仍处于非常早期的阶段，而且成本实际上也非常高，后面会根据市场的反馈做逐步迭代。”

据相关机构及媒体的不完全统计，当前国内的大模型数量超300个，其中仅有140个左右完成了生成式人工智能服务备案。今年1-7月，仅35家大模型产业相关企业拿到了亿元级的融资，大部分企业仍然处在融资早期，甚至尚未过审。

Founder Park在研报中分析到，大量早期AI应用仍未获得融资一方面是因为项目的功能点单薄，产品商业化天花板较低；另一方面，项目需求的资金量小，需求的是天使投资在资本市场上相对稀缺。

而从产品应用端来看，国内大部分视频生成式大模型都处在公测及体验阶段，用户反馈也仍然存在部分质疑的声音。比如，不少大模型生成的视频成片存在明显的扭曲问题；还有C端用户反应，AI生成的视频内容过于机械、内容不流畅、画面过于夸张、脱离真实性等问题。甚至针对AI出错，在短视频上还形成了一个新的流量赛道。

据博纳影业的反馈，即梦AI作为短剧集《三星堆：未来启示录》创作中的重要助手，适用于制作主体高速运动的画面，但不适合多人关系的画面、不适合保持人脸一致性，在创作过程中需要调整提示词及不同模式的搭配来优化效果。

张鹏表示，多模态模型的视频生成效果对物理世界规律的理解、高分辨率、镜头动作连贯性以及时长等，都有非常大的提升空间。模型本身还需要更具突破式创新的新模型架构。另外，视频生成大模型还存在隐私信息泄漏、生成内容错误引导等风险，也因此，部分视频平台针对AI内容有严格的管控措施。对于企业而言，这些都是需要规避和解决的问题。

03 需求沸腾，企业如何找准PMF

尽管产品并不完美，但无论是企业、需求市场还是资本市场对视频生成大模型的未来发展均抱有较高的期待。启明创投主管合伙人周志峰在2024世界人工智能大会上将“3年内AI视频生成技术将全面爆发”作为2024生成式AI的十大展望之一。

而视频生成之所以能够在AI绘图之后，成为下一个有明确落地应用场景的行业，一个重要的原因在于：“视频”已经成为互联网时代下，C端用户的最大内容消费形式。据量子位研究，在移动互联网的用户使用时常占比中，短视频占比达28%，移动视频行业用户规模达10.76亿，月人均时常超64小时。

并且在成本端，有数据显示，当前Runway的生成价格为3美元/分钟，即使按照100:1的生成可用率来计算，视频制作的实际成本约为300美元/分钟，远低于当前动画动漫数千美元/分钟、甚至动画电影数十万美元/分钟的制作成本。

行业背景和优势加持下，需求端的热情非常明显。快手可灵发布三个多月以来，申请体验用户数量已突破70万大关，累计生成的视频作品高达700万份。爱诗科技的PixVerse大模型则在国内上线88天后即达成了一千万次视频生成量的里程碑。国内外头部视频生成大模型在使用时，还一度出现长时间排队等待的情况。

期许之下，企业如何找准PMF（Product Market Fit产品市场匹配度），最大程度的发挥自有产品优势呢？

五源资本副总裁石允丰表示，目前的视频生成技术底座还没有稳固，找PMF的挑战很大。张鹏在谈及智谱AI技术在B端和C端的落地成果时也说到，目前PMF中M(Market)的新场景、新市场，F(Fit)所代表的技术和产品的性价比，都没做到极致。

在当前国内产品仍处在技术驱动阶段的环境下，第一新声认为，首先，保持技术的领先性是提升B端和C端交付能力的关键；其次，加强与用户沟通，获取一线真实、客观的需求，积累早期用户社群是企业下一阶段的重要壁垒；此外，视频生成大模型不应仅限于视频内容的生成，统一多模态的生成和理解是通往通用人工智能的重要路径。

目前，OpenAI断供、芯片限制出口等问题日益严重，国内大模型对于公开数据的依赖也是亟待解决的问题之一。但至少可见的是，AI视频生成在影视、广告、电商、社交媒体等领域具有广泛的应用前景。而且目前的视频生成能力，已经可以覆盖相当一部分特效、动画、广告短片、商品动态展示等需求。

未来，国产大模型还需夯实自主可控的技术底座，来迎接后OpenAI时代。