全球科创观察
“全球科创观察”定位及时、专业、特色、深度的科技创新智库产品,聚焦全球科技创新领域,覆盖科技前沿赛道,精选来自清华五道口、全球700+知名智库和海外科技媒体的研究成果与资讯,把握全球科技创新领域政策脉搏,洞察科技企业生态变化,捕捉全球科技创新投资风向,提供行业前瞻动态与价值资讯。
特别观察
Pitchbook [1]:人工智能和机器学习行业发展情况及风险投资活动
主题1:垂直领域
在人工智能(AI)领域,OpenAI、Anthropic、AI21 Labs、Stability AI、Midjourney和Cohere利用风险投资(VC)资金,取得了突破性的AI训练成果,这些公司在AI领域的发展超越了科技巨头。初创公司敢于承担大规模训练的风险、利用未经验证的架构并灵活设计产品,从而成功将尖端模型商业化。大语言模型的突破性进展可以促进大众与AI系统的互动,催生新的商业模式,例如开发者愿意提供付费的高级服务。智能基础模型降低了数据科学家们构建新AI系统的固定成本,并允许对高级分析进行可扩展的消费。
公共市场正在奖励在AI领域处于领先地位的企业,这提高了我们对AI应用前景的预期。除了消费者,企业也竞相将ChatGPT整合到他们的产品中。在宣布应用新的AI模型后,包括Buzzfeed、C3 AI、SoundHound、Veritone和BigBear.ai在内的一些AI公司股价大幅上涨。这种趋势促使AI云服务和超大规模模型开发平台的大型企业不断涌现。即使如此,各个领域AI技术的普及程度差异仍然很大,无法支撑需要客户高净留存率的高增长初创企业。在经过长时间的销售周期并争取到新客户后,客户使用产品仍然有限,从而降低了新客户的长期价值。
未来三年内,应用前景可能会推动大型初创企业的发展壮大。最近的数据表明,AI应用虽然分散,但在一些机构内也达到了足够的数量和规模:2022年6月对首席信息官(CIO)的一份调查显示,大多数机构在其IT和财务部门都广泛应用了AI。
来源:数据经许可转载自《麻省理工科技评论》,截至2022年9月20日。
图1:CIO当前和预期的核心业务领域AI普及比例
这表明即使整个机构没有完全应用某项技术,但该技术在某些单独的职能领域内得到广泛应用,也会带来企业价值。展望未来,CIO们预计到2025年前将AI融入各个部门,以开发应用程序为核心业务的初创公司销售周期将缩短。届时,60%的CIO计划在企业各个职能部门广泛应用AI。大语言模型提高各领域企业创造价值的能力,最终可以孕育出一家在AI技术方面具备天然优势的软件公司,可以与微软、IBM和SAP等老牌公司竞争。
我们估计,2022年AI和机器学习(ML)市场的最终用户支出达到1,975亿美元,其中垂直应用领域支出金额最大,以及半导体和自主机器领域也做出了重要贡献。随着对AI核心技术及软件产品的研究的增加,AI市场研究数据质量正在改善。虽然几乎没有AI应用以接近100%的速度增长,但许多应用达到20%—30%的增长,并有潜力在未来三年内继续高速增长。由于对计算能力的需求放缓,越来越多的应用程序建立在现成的数据中心基础上,以AI为中心的软件正在加速发展,已经超过了硬件的需求。AI核心软件市场仍然相对较小,为189亿美元(不包括与垂直应用重叠的自然语言处理(NLP)和计算机视觉应用)。这一估计表明,在AI的平台和应用层都将出现巨额支出,而随着计算成本的降低,硬件的价值逐渐下降。
来源:PitchBook Emerging Tech Research,数据截至2022年12月31日。
图2:各领域AI和ML市场规模预计
(单位:十亿美元)
主题2:风险投资活动
图三是每个细分市场中VC支持或成长阶段供应商的代表。所列出的公司已获得VC或其他值得注意的私人投资。
图3:AI与ML风险投资生态系统市场分布图
2022年,获高额资助但不太可能推动该领域未来发展的AI供应商面临着挑战。垂直领域的融资总额下降了34.9%,降至780亿美元,跌幅高于整个IT行业。成长型企业的VC估值的中位数下降至1.3倍,低于总体风险投资中位数,这表明像Dataiku和Noodle.ai等领先供应商面临着平价融资和异常下跌的风险。2022年,AI领域的交易总额与全球IT行业一样均超过了2020年;但交易量下降13.2%,跌幅大于IT行业,其中,早期投资交易额下降较多,而晚期投资交易量保持较高水平。由于投资者不愿投资需要大量的硬件设备和人力成本的企业,自动驾驶汽车、处理器设计、自动化平台和智能传感器等领域交易量下降超过50%。鉴于消费者对AI应用的关注度较高,消费者AI是最具韧性的垂直应用领域,年度风投融资仅下降了20.5%。
第四季度风险投资退出次数继续下降,但由于中国的上市交易数量较大,交易额有所回升。我们追踪到第四季度的风投退出价值为70亿美元,虽然较第三季度有所增长,但仍是2020年第二季度以来的次低值。退出次数仍高于疫情前的水平。在科技巨头中,积极收购者包括Meta、Oracle和Spotify。私募股权(PE)公司在生成式AI(generative AI)方面找到了投资机会。其中,成长型股权投资公司PSG以生成式写作初创公司Copywriter AI为平台,通过收购Frase和Rytr两家写作初创公司,构建了一个名为Copyrytr的新平台。这个平台的出现展示了生成式AI初创公司在不同应用中的协同作用。AI编写软件领导者Jasper作为该公司提供兼容格式的统一内容套件战略的一部分,也已经成为一个收购者。
来源:PitchBook,数据截至2022年12月31日。
图4:AI和ML风投公司在不同融资阶段的估值
中位数增长幅度
来源:PitchBook,数据截至2022年12月31日。
图5:2022年第四季度不同领域AI和ML
风险投资交易情况
来源:PitchBook,数据截至2022年12月31日。
图6:12个月内不同领域AI和ML风险投资交易情况
来源:PitchBook,数据截至2022年12月31日。
图7:不同阶段AI和ML风险投资交易额中位数
(单位:百万美元)
来源:PitchBook,数据截至2022年12月31日。
图8:不同阶段的AI和ML风险投资前估值中位数
(单位:百万美元)
来源:PitchBook,数据截至2022年12月31日。
图9:不同类型AI和ML风险投资退出价值
(单位:十亿美元)
来源:PitchBook,数据截至2022年12月31日。
图10:不同类型AI和ML风险投资退出数量
(单位:十亿美元)
来源:PitchBook,数据截至2022年12月31日。
图11:主要AI和ML风险投资退出案例
(单位:百万美元)
主题3:人工智能和机器学习:横向平台
人工智能和机器学习行业包括:
(1)横向平台:开源技术的应用加速了生成式AI商业化进程,使其能够面向大众市场。
(2)垂直应用:收入运营、国防和媒体领域迎来重大发展机遇。
(3)自主机器:自动驾驶技术初创公司正在通过创新和制定更切合实际的目标应对融资下降的局面。
(4)半导体:陷入困境的数据中心初创企业鼓励边缘计算和光子学应用的创新。
一
概述
横向平台使终端用户能够在各种应用中构建和部署AI和ML算法。这些平台将AI和ML科学研究中的进展直接用于商业应用。该领域的公司应用不同的AI和ML方法,并从一开始就以AI和ML为基础,这被称为以AI为先。此外,一些横向平台用于改进AI和ML算法,但本身并不使用AI和ML。
细分市场包括:
(1)AI核心:建立和部署AI和ML的模块,包括构建和将模型部署到生产环境所需的开发工具。此子领域中的类别包括AI即服务(AI as a Service,AIaaS)、AI和ML开发工具、AI平台即服务(Platform as a Service,PaaS)、自动化ML(Auto ML)、认知计算、数据准备平台、量子AI和微型ML。
(3)基础模型:基础模型公司使用可推广的技术,包括Transformers模型、Diffusion模型和多模态方法来训练定制的神经网络。这个领域的公司需要投入大量的计算资源来提升模型的性能,它们的长期目标通常是实现人工通用智能(AGI)。
(4)自然语言技术(NLT):NLT使用计算语言学技术从通信数据中学习,并对语言的结构和内容进行预测。该子领域中的类别包括会话AI、神经机器翻译、自然语言生成、自然语言处理和自然语言理解。
(5)AI自动化平台:通过使用AI实现对关键业务流程的预测分析的软件和服务。分类包括以下产品和应用:IT运营的AI(AIOps)、商业智能、合同生命周期管理自动化、数据库管理、决策智能和智能过程自动化。
二
行业驱动因素
(1)基础模型训练成本降低:截至2020年GPT-3发布时,单次训练成本高达1,000万美元左右。Stable Diffusion模型将最先进的生成模型成本降至约60万美元。优化硬件可以进一步节约成本,采用来自SambaNova和MosaicML等供应商的定制硬件和加速软件,可以降低5倍至20倍的训练成本。例如,AI21实验室只筹集了3,500万美元的风险投资,就能够训练出一种具有竞争力的大语言模型。
(2)人才短缺:根据全球调查,过去三年中,47%的AI领导者招聘AI数据科学家变得更加困难。78%的机构发现招聘AI数据科学家非常困难。购买AI软件可以缓解这种人才短缺。
三
市场规模
我们估计,该领域的支出在2022年达到324亿美元,并将于2024年增长到757亿美元,复合年增长率为32.7%。这个数据包括我们对计算机视觉和NLT应用支出的估计(即使它们与垂直应用支出重叠)。我们估计AI核心软件,包括AI平台和模型开发工具、 AI数据准备、模型训练和基础架构平台,市场规模将达到140亿美元。经过更精准的数据分析,我们对于水平计算机视觉软件的市场规模进行了重新估算,估计市场规模为1.8亿美元。此外,2022年,包括AI集成的业务分析和机器人流程自动化(RPA)平台的AI自动化平台市场规模将达到49亿美元。
来源:PitchBook Emerging Tech Research,数据截至2023年3月15日。
图12:横向平台市场规模预计
(单位:十亿美元)
四
商业模式
横向平台通常包含各种计算成本,包括以下典型超大规模机器学习(Hyperscaler ML)部署的组件:
基础设施成本:
(1)存储:数据通常存储在云服务器中,根据数据的规模收取名义成本。
(2)网络:进入和离开云环境的数据按基于数据量的费率计费。
(3)计算:模型构建包括构建、训练和部署的单独成本。
(4)操作成本:云服务器按照小时计费,费用会因合同期限和计算要求等因素而有所不同。
(5)安全与合规成本:AI和ML数据必须具有各种数据隐私合规框架的审计跟踪记录。
这些组成部分中的每个都有独立的培训和部署成本。因此,我们估计训练单个GPT-3模型需要花费约250万美元的计算资源。可选的增量成本包括漏洞发现和日志管理、维护和支持成本、数据加密和安全网关。初创公司可以拆分超大规模平台,并在超大规模平台之上提供数据预处理和监视。
五
市场机会
(1)生成式AI:开源技术的应用加速了生成式AI商业化进程。Stability AI的Stable Diffusion模型在推出后的前三个月内,在GitHub上获得了近3.4万点赞,这是开发人员流行度的主要衡量标准之一。Hugging Face将语言模型引入了开源社区,并在成立后仅六年就达到了20亿美元的估值。开源模型具有创造新商业应用的能力,这一点可以从使用Stable Diffusion的衍生产品中看到,其中包括Playground AI、Google Research的DreamBooth、Replicate和RunwayML。自在GitHub上发布以来,Stable Diffusion已经被复制了5,000多次,表明了正在构建新项目和商业产品的开发人员数量。生成式AI技术已经在各个领域引起了开发者的兴趣,并在开源AI的发展中起到了重要作用。
创业初期,使用基础模型可以支持各种商业模式的发展。如,Jasper应用OpenAI的大语言模型GPT-3支持营销文案撰写业务,Regie.ai通过使用这个基础模型使跨渠道的销售内容标准化。除了具备语境理解能力外,该公司还重新训练了模型,针对3,500万封销售电子邮件进行了训练,使得公司在该领域拥有独特的优势,公司估值在A轮融资中增长了4.3倍,达到5,500万美元。从Peech的830万美元种子轮融资以及音频生成中可以看出,视频合成和编辑方面也有新兴发展机会。
(2)以数据为中心的AI:尽管基础模型获得了成功,但数据质量仍然对模型准确性至关重要。OpenAI的ChatGPT依赖于初创公司Sama的手动数据标注来补充该公司大语言模型的原始输出。Sama的数据标注者对ChatGPT的响应进行评分以验证准确性,从而使得该聊天机器人具有跨问题回答、软件开发和文本生成等多种能力。在数据标注方面,Scale AI在计算机视觉应用中拥有竞争优势,继续在AI社区中发挥重要作用,该公司在2021年实现了73亿美元的后估值。
鉴于市场低迷,2022年该领域并未发生大型交易,但后期供应商表现出持续增长的态势。在2021年推出后,数据工程初创公司Galileo筹集了1,800万美元的A轮融资,用于自动纠正数据错误。该公司由来自Google AI,Uber,Stanford’s AI Lab和Carnegie Mellon大学的前ML工程师创立。其他重要的后期融资包括来自DataLoop和Superb AI的B轮融资,对这些公司的估值超过了1亿美元。我们相信可以在这个利基市场创建大型公司。
(3)流式数据库管理:数据库管理创新者将流式处理作为其AI战略的一部分。Snowflake和Databricks都在2022年6月的会议上宣布了新的流媒体产品。Databricks指出,自2019年1月推出以来,截至2022年7月,使用其结构化流媒体平台的流媒体作业同比增长了一倍,从约200万增加到超过400万。在其Data+AI峰会上,该公司推出了Project Lightspeed以降低其结构化流产品的延迟,特别是增加了对Python应用程序编程接口(API)的支持,我们相信这将更好地促进ML对流数据的推理。在Snowflake的峰会上,该公司宣布推出流数据摄取服务Snowpipe。这些供应商正在响应客户需求以及对持续AI推理的长期需求。
对于支持流数据管道的数据集成初创公司, VC表现出了很高的收购兴趣。在第二季度,Software AG以5.84亿美元的价格完成了对StreamSets的收购,使该公司获得了7.6倍的投资回报倍数(MOIC)。到2025年,StreamSets将在数据集成领域打开一个总计35亿美元的潜在市场,从而证明此次收购是合理的。此前,在2021年第三季度,Fivetran以7亿美元的价格对数据集成初创公司HVR Software的收购展示了该领域可以实现较高的退出价值。在VC中,Astronomer在其C轮融资中实现了5.9倍的估值提升和独角兽地位。传统数据库公司可以从与初创公司的合作中以集成来自云、物联网(IoT)和Web应用程序等新来源的实时数据获益。
六
风险和注意事项
(1)上市公司努力实现AI的广泛应用:AI上市公司通过将AI带给广大受众以努力实现高收入增长。在新冠早期享有高估值溢价的纯横向AI公司(包括Palantir、C3 AI和Veritone)将面临着充满挑战的市场环境,因为技术估值已经低于新冠前的估值水平,而且企业正在转移支出。在市场低迷期间,公共AI公司已成为卖空者的目标,旨在揭露围绕未来合同价值的过高的索赔。这些公司还面临收入增长下降和核心客户群以外的有限扩张问题。
(2)公有云的主机提供全面的AI&ML模型构建和部署能力:公有云主机可以提供AutoML、语言和视觉服务。它们还以AI市场为特色与横向平台竞争,其中包括API、微服务、数据集和预构建算法等产品。在这一领域提供产品的现有企业包括阿里巴巴、亚马逊、苹果、百度、微软、谷歌、腾讯和IBM。我们认为预算有限的企业可以结合使用开源框架和云管理工具来启动有限的AI和ML项目。出于这个原因,多云和基于API的ML操作(MLOps)工具的扩展可能会延迟,直到现有AI和ML项目的投资回报(ROI)足以激励整个企业对AI和ML功能进行更多投资。
(3)AI伦理和监管:随着深度学习变得更加有效,深度学习正在加剧AI和ML的黑盒性质,因为它的特征本质上是波动的,甚至对训练它们的数据科学家来说也是模糊的。模型可能缺乏关键指标的清晰度,包括隐私、安全、道德和透明度,从而限制了它们在敏感用例中的实用性。美国联邦政府、欧盟、中国互联网监管机构和联合国民权事务高级专员正在积极开展监管工作。可解释性对于理解训练数据偏差和歧视性模型参数中的伦理问题至关重要,但如果在需求阶段没有彻底的关注,就无法获得可解释性。根据提供的模型透明度水平以及道德数据收集,可能会出现供应商差异化。
[1]PitchBook成立于2007年,是一家美国服务商,致力于为全球资本市场提供及时的综合数据、独到的研究和分析。
来源:全球科创观察
编辑:丹凌