生成式AI在过去2年吸引了全球目光,ChatGPT用破纪录的5天时间达到百万用户,2个月破亿,Sora可生成最长1分钟的模拟真实世界的视频,Suno创作出让用户惊艳的音乐作品,我们看到AI在文本、图像、视频、音频生成等领域取得了重大突破,OpenAI和Anthropic为代表的公司完成了数十亿到百亿美金的融资。大家在经历AI技术日新月异的突破的同时,也关注生成式AI如何应用落地,如何产生商业价值。
CMC资本投资了快手(1024.HK)、B站(NASDAQ: BILI、9626.HK)、快看漫画、网易云音乐(9899.HK)、爱奇艺(NASDAQ:IQ)等互联网平台,兄弟企业“华人文化集团公司”控股电视广播有限公司(00511.HK,香港TVB)、正午阳光、紫龙游戏、华人影业、东方梦工厂、日月星光等具有领先优势的内容集群和综合协同生态,以上都是生成式AI的天然应用和落地场景,因此在深度覆盖技术供给端的科技公司进展的同时,也关注到产业端有强烈的AI需求,互联网平台公司在积极尝试AI,用AI制作了不错的作品,但还在寻找好的商业模式。在产业端大规模的有效商业落地更是处于早期阶段,也存在着各种挑战。
本文由CMC资本管理合伙人陈弦指导,投资副总裁王鹤宇执笔,将带着产业视角,谈一谈CMC对生成式AI在B端产业落地的思考。
1. AI2.0时代和新型生产关系
AI1.0时代
大家过往接触的AI,即所谓AI1.0,是判别式AI,机器可以在计算机视觉、自然语言理解等领域超越人类,常见的智能内容推荐、智慧安防摄像头、货架识别等都是AI1.0时代的应用,诞生了商汤为代表的“AI四小龙”和字节这样的超级独角兽。
模型架构上,AI1.0时代主要基于RNN等网络,RNN的数据处理使用的是串行,导致处理长序列数据能力有限;训练方法上,主要使用有监督学习,需要大量的标注数据和专业的编程人员,以上都导致其Scalability有限,往往一个模型对应单一的任务,其自身的泛化能力也有限。模型的参数通常在百万-千万级别,因此在算力上,部分模型使用消费级显卡即可。
AI2.0时代
模型架构上,2017年谷歌提出了Transformer架构,引入自注意力机制,如在自然语言处理时,它能让模型评估句子中各个词的重要性,从而根据上下文锁定关键信息,提高下一阶段的文本预测与建模能力。Diffusion模型,模仿物质在气体或液体中扩散的过程(如墨水在水中的扩散过程),通过前向扩散(加噪)和反向扩散(去噪)不断修正训练自己,在图像、视频、音频领域展现了良好的生成能力,超越了GAN的地位,模型本身的Scalability较AI1.0时代取得重大进步。
训练方法上,Transformer主要使用自监督学习,无需人工标注数据和专业编程人员,可以自动适配和执行各种任务,大幅提高了模型的Scalability。
近些年GPU计算能力的进步,使得早在2017年就提出的Transformer架构成为可能,Transformer为代表的大模型的参数量在百亿以上,在当时的GPU能力下无法进行有效训练。但英伟达代表的GPU不断进步,其制程从28纳米进步到5纳米,NVLink技术增加了GPU间通信的效率,GPU的调度能力也获得提升,千卡GPU集群并行计算成为可能,促进了算力能力大幅度综合提高,为大模型的训练提供了基础。
以上的模型架构的突破、训练方法的优化、GPU能力的提升,共同驱动了生成式AI开启AI2.0时代。基于超级海量数据训练的大模型,可以生成文本、图像、视频、音频和3D等各类媒介的内容,具有更强的理解、推理和创造能力,也解锁了AI1.0时代(安防和智能推荐为主)以外更丰富的场景和更大的市场空间。预训练的模型,本质集成压缩了丰富的世界知识,在泛化性上有极大的提升,如果将AI1.0的模型能力类比于只能完成特定任务的学前班学生,大模型是高中生,具备可以完成多个任务的能力。
如前所述,生成式AI在模型架构、训练方法上具备良好的Scalability,展现出了Scaling Law,即越多的训练数据,越多的模型参数,就会获得越强的AI模型能力。目前Scaling Law还在发挥作用,因此也有部分业界把生成式AI当作未来有可能实现AGI(通用人工智能)的方法之一。
新型生产关系
我们看好生成式AI的新范式,不仅是其远大于AI1.0的市场空间,更是看好其所代表的新型生产关系。过去的生产过程中,工厂消耗能源和基础材料,制造出实体的产品。未来的核心生产关系将围绕着电力、AI模型和token(数据)展开。数据中心作为AI工厂,在电力供能下,结合AI模型,通过token不断生产信息化的内容(语言、图形、视频、音乐等),也即是新的成产出来的产品,围绕token的新型生产关系正在形成,构筑新一轮的信息工业革命。当然以上是我们认为的远期状态,当前也仅仅是生成式AI取得大的影响力突破的第二年,该新型生产关系还在构建和发展中。
2. 生成式AI并非完美,也给应用落地带来了挑战
在语言、视觉和音频领域,我们看到了过去一段时间生成式AI日新月异的发展,这离不开Transformer和Diffusion模型的突破。但与此同时,我们也看到了大语言模型存在幻觉的问题,AI生成的视频和图像也并不稳定,我们在看到巨大潜力的同时,也不能忽视其不完美的现状。
B端对内容的精准、可控、一致性、可靠性、稳定性有着极高的要求,C端虽然相对要求更包容,但也存在着来自合规性的监管,这些要求给尚不满完美的生成式AI如何落地带来了挑战。
Transformer模型,1)缺乏可解释性,神经网络本质上是黑箱模型,输入和输出之间的关系是通过训练数据和复杂的计算学习到的,而非通过明确的规则编码,在金融、医疗等复杂、专业或者高度监管的行业中,模型的决策过程需要符合特定的法规和标准,不可解释性可能导致合规性问题;2)会出现幻觉,产生逻辑谬误、捏造事实以及数据驱动的偏见,也就是通俗说的大模型“一本正经的胡说八道”,客户可能对模型的输出结果持怀疑态度,难以建立信任,如用AI检索的结果,为了保证真实,需要复查,特别是在安全性和严肃性要求较高的场合此问题更加突出;3)除此之外,计算和内存消耗大,特别是在处理大规模数据集时,需要大规模并行计算能力;4)优化难度大,模型的复杂性和参数量大增加了优化难度。
Diffusion模型,1)扩散模型可以生成图像和文本,但它们还难以同时理解和生成涉及多种类型数据的复杂多模态内容。比如目前用扩散模型生成一张“红色衣服”的图片较为简单,但让其生成一张胸前印着“明天总是美好的”红色衣服图像,生成的衣服上的文字往往出错;2)扩散模型仍是随机采样,导致其生成内容的精准、可控、一致性等方面仍然不足,比如同样的prompt下,AI生成的2个漫画男孩不是同一人,这就导致了应用前后不对应的问题,使得商业落地困难。虽然业界在积极探索,ControlNet,LoRA,Dreambooth等技术的出现对局部内容实现了控制,如人脸、画风、动作等,但仍有较大的进步空间;3)其基于高斯求和的方式会带来求解难度的提高,尤其随着维度的上升会带来显存占用的几何级别的增长。这种架构下,显卡的显存大小限制了视频的时长,目前最长的AI生成的视频时长在1分钟左右,仍无法在长视频应用场景呈现。
虽然目前的模型能力还有不足,但我们也注意到模型架构也在迭代。工程上,如融合了Transformer和Diffusion的DiT,使用Transformer替换U-Net主干,并在潜在空间训练,展现出了比单纯Diffusion更好的训练效率和生成效果。再如Mamba架构,可进行“线性时间序列”建模,随序列长度增长其计算保持线性增长,而非Transformer的指数级膨胀,同时改善了注意力机制,减少了处理序列数据所需的计算量,加快了数据处理速度。同时学术界也在对模型底层的数学、人脑科学做更深层次的研究,希望能找到更多样化的实现AGI的通路。
3. 落地思路:“End to End” vs “Step by Step”
目前生成式AI的产业落地,大致分为2种思路,即“End to End/端到端”和“Step by Step/按步骤拆解”,相应特点也有不同。
End to End
方法:跳过现有专业制作流程,直接一步生成最终的内容
代表产品:ChatGPT, Midjourney, Suno
落地场景:主要在C端大众用户,用于泛娱乐的场景,或者非严肃场景,如编程,信息检索等
特点:1)简单直接,通常输入文字prompt描述,直接产出最终的内容;2)“黑盒”状态,过程不透明,生成的结果具备随机性;3)生成的内容往往不精准和不可控;4)基本上通过多次生成,选择最满意的方式进行生产
以漫画创作为例,漫画工具“AI Comic Factory”,提供了简单易用的用户界面和使用步骤
以上可见,目前端到端的产品易于上手,但同时因为无法对过程进行控制,且目前AI技术又不能一步到位生成高质量的内容,所以局限了出品的作品品质,更多的还是在用在for fun或者专业制作workflow中各步骤的第一步创意环节,如动画美工/画师或影视剧导演,在创作过程中将脑中的想法迅速通过AI画图展现出来,高效呈现预览效果,方便团队内部沟通及灵感碰撞。
Step by Step
方法:尽量沿用现有的工作流,不追求一步到位,AI专注于每一步工作的提效
代表产品:Adobe Firefly,ComicsMaker.AI
落地场景:主要用于B端的专业工作者,用在高质量工业级的生产制作流中
特点:1)对每个环节的生成内容相对更精准、更可控,2)往往和现有工作流和制作工具融合,更易于流程管理
以专业的动画创作为例,以下是国内某2B定制化AI内容创作公司的案例,专业的动画制作环节包括“人设图-分镜-排版-草稿-线稿-上色-动画”,其创作工具依照现有专业workflow设计,目标在创作过程中降本增效,目前在一些案例中可以得到40%的人力成本节省。虽然AI的能力看似无所不能,多方面都可以覆盖,但实操上每个环节涉及到众多的细节,如何反哺AI的产品能力,甚至进阶的精简/重塑专业的工作流,这都需要和产业方共建。
我们认为,虽然生成式AI在过去2年取得了快速发展,但今天行业仍在早期,长期我们确信AI会颠覆现有的工作流,甚至企业的管理学,但从务实的角度,B端的AI落地,会经历1)短期先Step by Step在可能的环节部分落地,降本增效;2)行业公司效仿,渗透率提升;3)技术进步,更多环节可以被AI赋能,渗透率再次提升;4)技术迭代,workflow开始合并缩短,甚至出现全新的成产方式;5)理论上最终极的方式可能是一步端到端。
4. 行业know-how和专有数据对B端落地不可或缺
根据上文,按照步骤拆解的思路在B端产业落地,需要更多的行业know-how和专有数据。如上文的动画制作案例,第一步就是拆解工作流,如“人设图-分镜-排版-草稿-线稿-上色-动画”,本身就是know-how。然后每个环节如何和AI结合,如何高质量打标签,如何实现美学对齐(比如创作端什么内容才是“美”,什么才是“好”等),哪些功能和模块更符合使用需求,也是需要与行业know-how结合打磨,也是PMF的过程。
专业制作内容,有大量的数据1)本身很难或者无法进行数字化沉淀,如电影/漫画的分镜设计,其构思往往在导演/创作者脑中,无法有效沉淀;2)在制作方手中,特别是制作环节过程中产生的高质量结构化数据,对模型训练有巨大帮助,但往往这些数据并不是公开的。相关数据的缺乏导致了AI模型本身无法有效获得训练而不具备对应能力,这也是上文案例动画制作环节中,分镜设计的AI渗透率极低,但上色环节(公开数据较多)有较好效果和渗透率的原因。
预训练模型的本质是历史数据和知识的压缩,数据的质和量极大程度决定了AI能力。专有数据对于提升模型能力,满足企业的特定需求(调性风格、品牌特点、行业知识等)至关重要。
因此我们也期待产业方更开放的同科技公司合作,目前虽然中国底层大模型的发展和学术研究暂时还处于追赶国外的状态,但中国的产业更丰富,我们对应用的落地有着更强的人才和资源投入,我们在AI2.0的商业化应用上有机会复现中国在AI1.0时代的引领地位。
5. B端需要的并非单一的AI产品和工具
对企业客户来说,经过我们的调研,相比于底层技术和实现方式,其往往更关注交付的效果,所以生成式AI的落地,除了行业know-how和专有数据以外,我们认为需要满足以下几点:
首先,是多个模态的组合
生成式AI的落地在众多的行业和场景,但从介质的角度来看,主要是文本/图像/视频/3D/音频。真的在产业落地,单一的模态往往是不充分的。其中,文本往往被广泛用作跨模态(和图像/视频/3D/音频)交互的自然语言,连接着多模态的组合。如AI制作3D游戏,就涉及到文本、图像和3D等模态,文本可用于编程和对话,以及其他模态的交互,图像用于人物设计的美术环节,3D用于建模环节。
其次,还会是多个模型构建的系统
大模型和小模型的组合:大模型泛化和通用性强,但对于很多AI1.0时代已经解决的标准化的场景,用小模型更具备经济性(算力消耗少),因此可以组合大模型和小模型搭配,分别完成复杂和标准场景。
通用和垂直模型组合:通用模型覆盖大部分业务,但对特定的垂直领域,调用对应的垂直模型,如法律翻译和文学翻译,AI翻译系统可以是不垂直模型的组合。
除此之外,为了实现特定的目标,还会包含众多的嵌入的模块来扩展模型能力的边界,从而构成一个系统。比如会在Stable Diffusion模型中加入Control Net的神经网络架构,通过选择不同的输入条件,生成满足特定需求的图像来实现内容控制。或者在模型中加入文本特征抽取模块,多层映射网络实现关键词解耦,从而提升理解能力等,使得AI能真正落地使用。
最后,还会是AI能力+现有业务系统和管理流程的结合
很多AI公司都可以做到前述2点,但最终在企业的落地效果不佳,究其原因还是在于1)要么没有和现有的业务系统结合,导致虽然局部环节提效,但和现有业务系统的融合中额外增加成本,总效率更低,或者2)目前大模型无法嵌入企业的工作体系里,也无法解决企业的管理逻辑,所以往往都是设计师/员工自行使用,AI和管理体系需要协同和融合。
我们观察到国内某新型主流全媒体集团旗下的“生成式人工智能媒体融合创新工作室”取得了不错的落地,内部结合自身的工作管理和业务流程,叠加AI能力,开发了一套全栈的AI+业务+管理系统。其1)在AI制作上,涵盖了多个功能,涉及文本、图像、视频、音频等多个模态;2)现有的媒体集团的业务和管理,涉及“媒资库入检索-内容制作-内容审核-内容分发-媒资入库”等环节和系统。所开发的AI系统和公司媒资管理系统、专属(新闻采编等)业务系统有连接,同时也是与安全播出的多重审核机制管理权限藕合。不仅仅是单纯的内容制作工具,其也集成AI媒资管理、安全审核结合等业务和监管环节,形成一套综合的系统。3)同时制作全流程不需要切换系统,方便管理和流程转移。这是我们看到的目前较好的B端的综合AI落地,结合了多个模态,多个模型,同时和企业的业务和管理流程系统融合,具备较高的使用率,也表现出较好的提效结果。
6. AI 2B发展路径:Native生成式AI公司vs Non-native生成式AI公司
我们观察到在AI 2B赛道有2类公司。一类是Native生成式AI公司,从0-1利用AI的模型能力为企业客户提供服务。另一类是Non-native生成式AI服务公司,比如数字化时代的企业服务公司,他们通常已在一些2B场景里取得了不错的结果,如今把生成式AI能力融合到现有场景中,谋求更好的实现效果。
第一类路径
比如在视频制作领域有众多的Native生成式AI创业公司,他们致力于通过AI模型,输入文字或者图像直接产出视频。随着Sora的推出,我们观察到众多相关创业公司当前的努力重点还是提升模型能力,尽快复刻Sora展现出来的效果。我们认为如果想要将其做成一个企业级的应用产品,合理的路径除了进一步提高模型本身之外,还需要1)产品的功能设计和工作流相结合,如增加分镜的顺序组合搭配工具,使得生成的视频具备故事性;2)增加编辑和控制工具,如局部内容的特定颜色,特效的编辑功能,或者关键帧的控制工具等。通过和产业需求和know-how结合,才能将模型能力变成产品,且其符合使用习惯从而取得很好的落地效果。
第二类路径
智能化的基础是数字化,很多场景已经在AI1.0时代被企业服务公司覆盖,如智能客服、AI营销、翻译等。在已经被数字化改造的行业的提供企业服务公司,其有沉淀的场景数据,有业务的落地,有现成的客户access,如果叠加生成式AI的能力,如把大模型应用到客服系统和营销对话场景,对话效果比AI1.0的模型更加自然,从而获得更高的用户满意度和付费转化率。再如大模型对商业运营表现和市场商机进行分析,进一步完善BI(商业智能)的功能,这些都可以加深对客户的服务深度和拓宽服务边界,增加企业客户对产品的价值感。我们观察到在AI电商营销领域,随着生成式AI技术的普及,原本处于不同环节分工的企业,都在拓宽服务边界,彼此渗透,例如提供AI客服的公司,使用大模型能力,不仅提升了客户对话能力,也拓展到AI蓄客、营销文案制作、数字人、智能营销切片等。因此我们认为以上也是一个生成式AI2B有机会的发展路径。
7. 结语
生成式AI技术解锁了巨大的市场空间和可能性,但当前技术并不完美,特别在对精准性、可控性、一致性要求较高的B端产业落地面临较多挑战。End to End思路更直接,但想要取得更好的结果更依赖底层技术的突破,Step by Step思路在当前的技术栈下短期更加务实,追求降本增效。但无论哪种思路,行业的know-how,专有数据,AI与业务和管理系统的耦合,都在产业端落地中都至关重要。
此外,生成式AI也是设计和生产范式的变化,年轻的创作者对新技术的拥抱度更高,AI科技公司可以参与培育新一批的AI Native的创作者,在大学共创课程体系,随着相关学生毕业进入产业界,将促成新的创作范式的行业落地,同时也形成了产品的隐性的护城河。