今天分享的是人工智能系列深度研究报告:《 全球生成式AI 应用全景图 》。(报告出品方:华金证券 )
AI 应用进入大爆发时代
模型、算力、生态推动 AI 应用进入大爆发时代:
1)算法及模型的快速进步:2017 年 Transformer 模型及 2022 年 ChatGPT 的 发布标志着生成式 AI 在文本领域的重大飞跃,并在多项能力上超越了人类基准, 未来随着更强大的语言大模型(如 GPT-5),以及多模态生态和视觉大模型的 技术持续突破,将推动 AI 应用的持续进化。
2)算力基础设施将更快、更便宜:虽然短期内大模型训练需求的激增推高了算 力成本,但随着英伟达 GPU 性能的持续升级,以及微软、亚马逊、谷歌和 Facebook 等巨头正在加大对 AI 算力云服务的资本开支,并积极布局自研 AI 芯片,未来 AI 算力将更快、更便宜,以更好的支撑应用层的快速发展。
3)AI 生态的逐渐成熟:AI 组件层(AI Stack)的完善和产业分工细化,为 AI 应用在模型训练、数据整合、应用开发、应用部署等环节提供全生命周期的支 撑。
全球科技股复盘:算力基础设施层公司率先受益于本轮 AI 产业浪潮,应用层公 司同样有所演绎,从兑现节奏上晚于基础设施层。在基础设施层中,英伟达是 AI“掘金买铲”逻辑的核心受益者,其次为微软、Google、AWS、Oracle 等头 部云服务厂商和大模型厂商。在应用层中,美股年初至今涨幅靠前的 AI 应用公 司 有 : Palantir(136%) 、 Duolingo(109%) 、 Shopify(92%) 、 Palo Alto Networks(74%) 、Salesforce(67%) 、adobe (67%)、ServiceNow (52%) 。相 较于 AI 基础设施厂商已经能够从模型训练所产生的巨大需求,订单和业绩也得 到了持续验证,B 端应用还处于早期,大多数 AI 应用厂商还尚未进入到商业化 阶段,从兑现时间来看预计要晚于基础设施层 2-3 个季度。
全球生成式 AI 项目及投融资现状:
1)AI 项目数量激增:GitHub 上 AI 开源项目截止 8 月底数量达到了 91 万,相 较于去年全年的增幅达到 264%。根据 Replit 的数据,23 年二季度 AI 项目环比 增速达 80%,相较于去年同期同比增长了 34 倍;
2)OpenAI 在大模型上依然具备统治级地位:95%以上的应用项目均是基于 OpenAI 的模型来构建,同时开源项目数量也开始大幅增长;
3)2023 年是生成式 AI 投融资创纪录的年份:根据 CB Insights 的数据,截至 2023 年第二季度,生成式 AI 的投融资相较于去年全年的 25 亿美元,增长了 4.6 倍;
4)生成式 AI 应用层融资金融仅占三成:目前约七成资金投向了包括大模型开 发在内 AI 基础设施层。而从应用层的融资中,AI 数字代理获得融资最多,其次为文本、图像、代码及音频的生成工具。完整版《全球生成式AI 应用全景图》来源于公众号:百家全行业报告研究报告内容节选如下
生成式 AI 应用按应用领域可以分为工具型应用、通用软件、行业软件、智能硬 件四大类,从产品形态上将沿着 AIGC(内容生成)、Copilot(智能助手)、 Insight(知识洞察)、Agent(数字代理)四个重要的方向演进。
1)工具型应用:包括聊天机器人、搜索引擎、文本工具、AI 作画以及代码工具 等,主要集中在 C 端,产品的同质化程度较高,对于大多数文本、图像、视频、 代码、3D 模型等 AIGC 工具,模型/算法的能力决定了产品的受欢迎程度,对底 层模型特别是 GPT-4 存在高度依赖。目前行业进入第一轮洗牌期,竞争优势的 构建来自于差异化的产品定位以及持续训练更强大的底层模型和算法。
2)通用软件:包括办公软件、企业服务、IT 运维、软件开发、网络安全、数据 智能等领域,各领域头部厂商均已出现标杆产品,最常见的产品形态主要是 AI 智能助理(Coplilot),代表有 Office 365 Copilot、Salesforce Einstein GPT 及 Adobe Firefly。目前各个赛道竞争格局变化不大,各个赛道的龙头厂商依然率先 受益于生成式 AI 所创造的新的产品功能,未来的竞争关键在于 AI 与场景/工作 流的深度融合,目前通用软件头部厂商预计将在四季度进入商业化落地的关键 阶段;
3)行业软件:涉及金融、医疗、教育、工业、游戏、法律等多个行业,生成式 AI 在游戏、法律、教育、电商等 C 端场景有较多的结合,而在医疗、金融、工 业等 B 端场景下生成式 AI 产品的成熟度仍然偏低。AI 助手(Copilot)同样得 到了广泛应用,而未来在金融、医疗、工业等领域,最具前景的应用来自于数 据分析和知识洞察(Insight)工具。同时,目前各行业头部厂商也在开始自建 垂类大模型,包括彭博社的金融大模型 Bloomberg,以及 Meta 蛋白质大模型 ESMFold,当前垂类大模型在其专业领域的性能普遍超过通用大模型。
4)智能硬件:包括智能汽车、机器人、智能终端等,目前生产式 AI 与智能硬 件的结合主要分为两个方面:一是语音助手,应用场景包括智能座舱、智能音 箱、家用机器人等各类智能终端,相较于过去的语音交互模式,大模型和生成 式 AI 技术提升了感知和生成能力,进而带来了用户体验的提升,但是总体而言 产品门槛相对较低,另一类则为数字代理 AI Agent,主要应用包括自动驾驶、 智能机器人等,具备更加广阔的应用空间。目前 AI Agent 在感知与决策能力上 仍存在瓶颈,未来应用空间打开的关键在计算机视觉、具身智能等底层技术的 突破。
生成式 AI 产品目前的商业模式主要包括功能订阅、按量付费、产品销售等,其 中 C 端应用以功能订阅和按量付费为主,商业化已经趋于成熟,而 B 端应用则 主要为功能订阅、解决方案和产品销售,即将进入全面商业化阶段。目前第一 批生成式 AI 应用包括 Jasper AI、Notion AI、MidJourney 等均已经成功实现商 业化。其中 Office 365 Copilot 的定价为每个用户 30 美元/月。相较于 Office 主 线产品 15-30 美元/月的定价,最高提升了 2 倍以上。Salesforce 的生成式 AI 模块服务 GPT 和销售 GPT 分别单用户每月付费为 50 美元。此外,Palantir、 Palo Alto Networks 的 AI 产品已经在实际场景中得到应用且已经带来了明显的 收入贡献,四季度 AI 应用将正式进入商业化落地阶段。
一、生成式 AI 应用进入大爆发时代
1)驱动因素:大模型、算力与生态的共振
生成式人工智能是自个人 PC 出现和互联网诞生以来最具颠覆性的技术创新,随着大模型以及 ChatGPT 等一系列“杀手级”应用的诞生,生成式 AI 在文本、图像、代码、音频、视频和3D模型等领域展现出了强大的能力。当前生成式 AI 的发展仍处于起步阶段,未来有望为全球经济创造数万亿美元的价值,并对各行各业的工作方式产生重大影响。在生成式AI 产业突变的背后是人工智能技术数十年的积累和酝酿,其演进历程具体可分为四个阶段:
1)专家系统:上世纪 50 年代前后,人工智能开始萌芽,基于规则的专家系统占据主导,这一时期,使用复杂的逻辑规则,能够处理包括字符匹配、词频统计等一些简单的任务,机器翻译以及语言对话的初级产品,1966 年 MIT 发布的世界上第一台聊天机器人Eliza可以看作生成式 AI 最早期的产品之一。Eliza 能够根据接收到的文本,遵循简单的语法规则来模拟与人类用户的对话。与此同时,专家系统存在词汇量有限、缺乏上下文和过度依赖规则等缺点,生成创造性内容的能力非常有限;
2)机器学习与神经网络:1980 年美国的卡内基梅隆大学召开了第一届机器学习国际研讨会,标志着机器学习在全世界兴起,20 世纪 90 年代以后,神经网络作为一种新的生成人工智能方法出现了。神经网络受到人脑的启发,能够以基于规则的系统所不能的方式从数据中学习,带来了AI 技术的突破,AI 可以开始基于神经网络创建逼真和有创意的内容;
3)深度学习:2012 年后,深度学习在人工智能领域中的应用将生成式AI 带入了一个新的高度。深度学习作为一种基于神经网络的机器学习方法,通过大规模的数据特征学习,对不同场景具备很强的自适应性,同时可以通过增加层数和节点数,实现对更复杂的问题的解决,提升了模型的准确性和真实性,并且基于分布式计算和 GPU 加速等技术,能够训练更大规模的数据和更大尺寸的模型。直到现在,生成式 AI 依然建立在深度学习的基石之上;
4)大模型:2017 年,Google 发布著名论文《Attention is All You Need》,提出了基于一种新的神经网络——Attention 注意力机制所构建的模型 Transformer,2018 年OpenAI 和谷歌分别推出了 GPT 模型以及 BERT 模型,均是在 Transformer 的基础上构建,Transformer 及GPT模型标志着生成式 AI 在文本领域的重大飞跃。与此同时,伴随着VAEs、扩散模型、神经辐射场、CLIP 等一系列生成算法和多模态模型的不断成熟,生成式 AI 的时代正式开启。
模型、算力、生态推动为 AI 应用进入大爆发时代:
1)算法及模型的快速进步:2017 年 Transformer 模型及2022 年ChatGPT的发布标志着GenAI 在文本领域的重大飞跃,并在多项能力上超越了人类基准,随着未来更强大的语言大模型(如 GPT-5),以及多模态大模型和视觉大模型的技术突破,将带动AI 应用的持续进化。
2)算力基础设施将更快、更便宜:虽然短期内大模型训练需求的激增导致了算力成本的持续上涨,但是随着英伟达算力芯片的不断更新迭代,微软、亚马逊、谷歌等在AI 云服务资本开支的不断加大,AI 应用的发展将得到更加强有力的支撑。
3)AI 生态的逐渐成熟:AI 组件层(AI Stack)的完善和产业分工细化,为AI 应用在模型训练、数据整合、应用开发、应用部署等环节提供全生命周期的支撑。
本轮生成式 AI 的技术的最大突破来自于底层大模型,GPT 作为当前全球最强大的语言大模型,从 2018 年 5 月 GPT 初代版本,到 2023 年 3 月的 GPT-4,仅5 年时间模型的性能就产生了质的飞跃。在 GPT 模型快速进化的背后,一方面是对训练方法的持续迭代,从GPT-1的半监督式学习,到 GPT-2 舍弃了微调阶段,再到 GPT-3 的 In-context 学习和海量参数,以及引入了基于人工反馈的强化学习之后的 ChatGPT;另一方面,在模型参数规模扩大背后,是OpenAI对研发和算力的持续高投入,通过“大力出奇迹”的方式,支撑了模型参数和训练数据的快速膨胀。GPT-4 相较于之前版本的 GPT 模型,在推理能力、文本生成能力、对话能力等方面有了大幅提升之外,在许多能力上已经超越了人类基准。同时大模型作为能够在海量、广泛、非结构化数据集(例如文本和图像)上进行训练的大规模深度学习模型,它的强大之处不仅在于文本生成,大模型可以适应各类不同的任务,不仅可以用于聊天机器人,同时也可以用来创建新的蛋白质序列,并且当前已经成为了图像、代码、音频、音乐、视频和3D 模型等各种模态应用的底层框架。
随着大模型家族的不断丰富,出现了单向/双向、开源/闭源等不同的技术路线。
1)单向/双向:在 Transformer 模型 2017 年诞生之后,2018 年OpenAI 和Google发布的GPT-1 和 BERT 采用了 Transformer 不同的框架,6 月OpenAI 发布的GPT-1仅使用了Transformer 的 Decoder 框架(单向架构),10 月,Google 发布的BERT 模型采用Transformer的 Encoder 框架(双向架构),作为一个拥有 3 倍 GPT 参数量的更大体量的语言模型,BERT在当时的多项测评以及业内影响力等方面,要领先于 GPT 的初代版本。2020 年,随着GPT-3的惊艳表现,单向模型在语言生成方面的优势开始展现(特别在大参数情况下),Decoder路线逐渐占据主导,当前主流大模型大多采用 Decoder 框架或大Decoder 小Encoder 框架。
2)开源/闭源:大模型的开源/闭源,与 iPhone/Android、Windows/Linux 有类似之处。包括 GPT-4,以及谷歌的 Bard、Claude 等大模型均是闭源模型,优势在于性能强大和易于上手,目前依然是绝大多数海外主流生成式 AI 应用的首选;而 LLaMA2、Stable Diffusion,Eleuther,GLM130B,OPT,BLOOM 引领的开源模型优势在于灵活性和低成本,特别llama2的发布,宣布支持商业化,让应用层的公司可以以非常低成本来使用大模型,可以基于开源模型进行私有化部署并实现差异化功能的开发。在过去的一年里,开源阵营模型的能力和数量有了显着的提高,开源框架目前也正在成为越来越多应用的选择。
目前大模型的应用已经不局限于 NLP 领域,包括图片、语音、视频、代码等多种模态的应用开始涌现,而大模型、生成算法与多模态等底层技术的突破成为了AIGC的质变的关键。一方面,目前大模型可以广泛适用于各类下游任务,当前已经成为了AIGC 的底层框架。许多跨领域的 AI 应用均是构建于大模型之上,能够解决多任务、多场景、多功能需求,支撑各种模态的生成;另一方面,包括生成对抗网络(GAN)、变分自编码器(VAE)、扩散模型(DiffusionModel)、神经辐射场(Nerf)等快速涌现的生成算法,以大模型为基础,能够创造出文字、图片、语音、视频、代码等各种模态的内容,而基于此之上的多模态应用开始涌现。
1)文本生成:目前技术最成熟的领域,随着新一代大模型的发布,未来将看到更高质量的输出、更长形式的内容和更好的垂直特性;
2)图像生成:过去一年技术进化速度最快的领域,2014 年出现生成对抗网络GAN是图片生成的主流算法,但一直存在对输出结果控制力弱,难以生成新图像等缺点。随后扩散模型、CLIP 模型等技术的成熟,文生图的能力大幅增强,包括 DALL-E2、Stable Diffusion等主流文生图应用均是基于扩散模型所构建;
3)视频生成:目前尚未有非常成熟的视频生成算法,许多应用还是依赖于图像生成的算法;
4)3D 模型生成:3D 模型生成还处于早期,其中这一领域关键算法神经辐射场(NeRF)于 2020 年于 ECCV 会议上提出,目前已经成为 3D 模型构建的主流算法,并广泛应用于游戏、数字人、虚拟现实、增强现实、电子商务等领域,未来具备广阔的应用空间;
5)代码生成:GPT-4 等大模型具备很强的代码能力,未来将会对软件开发人员生产力产生重大影响,同时能够使非专业开发人员更容易生成代码;
6)音频生成:音频合成在技术和商业化上已经非常成熟,近年来大模型和优化算法的成熟能够基于大量音乐数据集训练和优化算法来创建 AI 虚拟歌手,更加趋近于真人发声效果,典型应用如:AI 孙燕姿;
7)其他:从生物蛋白质分子模型到其他垂直领域,许多行业都在进行垂类模型的研发。
在语言大模型和多模态多模态大模型快速取得质变的同时,视觉领域的基础大模型VisionTransformer(VIT)在 2020 年诞生后,近三年语义分割、目标检测、图像分类、实例分割等主要视觉任务上的能力均有明显提升。Vision Transformer(VIT)于2020 年由Google提出,可以看成是 Transformer 的图形版本,在尽可能少的改造下将标准的Transformer 模型直接迁移至图像领域变成 Vision Transformer 模型。Vision Transformer 最初用于处于图像分类任务,2020年很多后续的视觉模型都是基于 VIT 建立。为了将 Transformer 模型适用于图像,VIT将图像切分成很多子块并将这些子块组成线性嵌入序列,然后将这些线性嵌入序列作为Transformer的输入以模拟在 NLP 领域中词组序列输入。
当前视觉大模型相当于 20 年前后的语言大模型:
1)Transformer 于 2017 年由 Google 提出,Vision Transformer 于2020年提出;
2)当前最大的语言模型已经超过万亿参数量级,当前最大的视觉模型刚刚达到百亿参数量级;
3)从 GPT-2(2019)开始,语言模型开始具备通用能力,而当前视觉模型基本仍只能处理特定视觉任务。
巨头持续加码算力基础设施,未来 AI 算力将更快、更便宜,并更好的支撑应用层的快速发展。多年来,英伟达 GPU 性能的突破的基本遵循摩尔定律,GPU 的晶体管数量每两年增加一倍。近年来,随着芯片架构的进步以及张量核心和 Transfomer 引擎等功能的引入进一步提高了英伟达 GPU 的吞吐量和效率,GPU 进化的速度超越了摩尔定律。同时除了硬件之外,英伟达围绕CUDA 构建的软件生态系统,为开发人员提供端到端的解决方案,简化了人工智能应用的开发、部署和管理,已经成为了各行业人工智能的操作系统层。除英伟达外,全球科技巨头均在加速算力侧的布局,其中软件厂商开始自研芯片,而硬件厂商则在搭建算力平台,包括微软、亚马逊、谷歌、甲骨文和 Facebook 等软件及云服务巨头正在加大对AI 算力云服务的资本开支,并提供更丰富的 AI 云服务模块、涉及 NLP、机器学习、计算机视觉等各个领域;另一方面,微软、亚马逊、谷歌等均在加大自研 AI 芯片的投入。因此虽然短期来看,大模型训练的需求的急剧增加推高了算力成本,但随着未来芯片性能的快速进步以及 AI 算力供需的逐渐平衡,应用层的发展将得到更好的支撑。
AI 组件层(AI Stack)是 AI 生态的重要组成部分,为模型训练、数据整合、应用开发、应用部署等提供支撑,AI 组件层的完善和产业分工细化,代表AI 生态的逐渐成熟。AI 组件层具体包括了模型训练、数据整合、应用开发、应用部署等几个关键环节,各环节均已经初步跑出了一系列组件工具,可预见随着各个头部工具厂商不断拓展自身的产品线,AI 组件层的一体化和平台化程度会越来越高。除了新兴厂商之外,IBM、埃森哲、德勤等IT 咨询公司也推出了AI 解决方案,来支撑 AI 应用的开发与部署,具体来看:
1)应用框架:通过提供了一套组件和接口,将开源模型、API 和数据库等不同的外部组件链接在一起,能够帮助应用开发快速构建基于大模型的 AI 应用,来简化应用的开发和创建过程,代表厂商包括 LangChain,Dust.tt,Fixie.ai,GPT Index 和Cognosis。
2)数据整合:由于基础模型仅限于对训练它们所依据的事实进行推理,而应用和垂类模型需要使用时效性强以及垂直领域和私有数据来推出面向专业领域的应用,特别是在金融、医疗等专业性强以及天气、体育、新闻等实效性强的领域,应用程序开发人员需要模型调用外部数据源,通过外挂等方式来实现数据整合,而非再次训练底层大模型。涉及工具包括了向量数据库Pinecore 、 Chroma 、 Redis 等 、 上 下 文 窗 口 LangChain 、LlamaIndex 等、数据加载器 Unstructured.io 、Databricks 等。
3)模型训练:应用开发对底层模型有多种选择,可以选择由Open AI、Anthropic或Cohere等供应商创建的闭源模型,或者使用开源模型,以及可以选择训练自己的模型,而且模型尺寸、模态、输出质量、上下文窗口大小、成本和延迟各不相同,最佳设计通常需要开发人员在使用多个模型的组合。涉及到的 AI 组件包括:模型库 Hugging Face、Replicate 等、深度学习框架TensorFlow、PyTorch、DeepSpeed 等、训练工具 Mosaic、TOgether、Cerebras等,托管服务 OctoML、Vertex AI 等。
4)评估工具:一方面,在模型训练过程中,开发人员需要使用多种工具来实现模型的快速开发和迭代,基于数据来驱动提示工程、超参数、微调、模型相关的实验,相关工具包括Statsig、Comet、Mlflow 等;另一方面,在应用部署后,应用厂商需要跟踪底层大模型的性能、成本、延迟和行为随时间的变化,了解模型输出的质量,防止恶意使用以及控制大模型的成本,相关工具包括 WhyLabs、datadog 等。
5)应用部署:将 AI 应用部署到实际应用环境中,可以采用Fixie 、Gradio等框架,或者采取第三方厂商的服务来完成应用的部署实施。
2)产业现状:一二级视角看 AI 应用的演进
随着 GPT 以及扩散模型等底层模型和算力能力的突破,生成式AI 应用在近3年来取得了跨越式的发展。当前时点,B 端应用场景逐渐成熟,AI 应用即将进入全面商业化阶段。
1)2021:GPT-3 催生出第一批生成式 AI 应用。2021 年第一批生成式AI 应用诞生得益于2020 年 5 月 GPT-3 的发布,相较于 GPT-2 及其他语言模型,GPT-3 在机器翻译、聊天问答和文本填空上等语言任务上有着非常出色表现,并且开始能够完成一些比较困难的NLP任务,比如生成新闻报道和撰写文章。因此从 2021 年开始, 包括 Jasper AI 在内第一批基于大模型生成式人工智能应用诞生,大多是基于 GPT-3 的能力,并以类 SaaS 服务的形式进行收费。JasperAi在成立当年就收获 7 万名用户、营收额达到 4500 万美元,2022 年翻倍达到8000万美元,仅用18 个月时间速成为一家估值 15 亿美元的 AIGC 独角兽。
2)2022:AI 作画的爆发与 ChatGPT 的发布,22 年是生成式人工智能的元年。22年随着扩散模型等生成算法的突破,一系列 AI 作画应用相继诞生,其中包括了MidJourney、Dall-E2、Imagen 等在线文生图应用,以及 Stability AI 的开源模型 Stable Diffusion ,AI 图像生成的效率与精度提升到了前所未有的量级。22 年底,生成式 AI 的“杀手级应用”ChatGPT正式发布,基于对超大规模数据的深度学习,ChatGPT 在文本生成领域的能力得到了空前提高。除此之外,各种视频生成(Make-a-Video、Imagen Video),以及 3D 模型生成(DreamFusion、Magic3D和 Get3D),包括代码生成工具 GitHub Copilot 开始受到广泛关注。
3)2023:C 端应用面临洗牌,B 端应用即将进入全面商业化。23 年生成式AI 在基础模型实现了持续的突破,GPT-4 发布的大语言模型在多项任务上进一步提升,而开源模型Llama为初创企业和其他企业提供了一个强大的免费选择,和 OpenAI 的闭源模型阵营形成竞争。在模型能力快速进化的同时,一方面是各类生成式 AI 的项目数量开始激增,另一方面,B端应用在处在商业化的前夜,自 3 月微软发布了基于 GPT-4 的 AI 办公助手office Copilot,此后包括企业服务、营销、低代码、安全、教育、医疗、金融等领域的 AI 应用开始陆续发布。7月份,Microsoft365 Copilot 公布定价,为每个用户 30 美元/月,同时全球 CRM 龙头Salesforce宣布正式向所有用户开放 AI 产品,并给出了单个产品每用户每月 50 美元的定价。随着两大软件巨头AI 功能定价发布,AI 应用将正式进入商业化落地阶段。
年初以来,海外科技股在 AI 引领下持续上涨,AI 算力基础设施层公司率先受益于AI 产业浪潮,其中英伟达是 AI“掘金买铲”逻辑的核心受益者,其次为微软、Google、AWS、Oracle等头部云服务厂商和大模型厂商。当前生成式 AI 中的很大部分收益流向了基础设施层,根据海外风险投资机构 Andressen Horowitz 的粗略估算,应用厂商平均需要将20-40%的收入支付给云服务商或大模型厂商,同时大模型厂商通常也会将近一半收入用于支付云基础架构。因此总体上,当前生成式 AI 总收益的 10-20%流向了云服务商,其中大部分集中三朵云上:亚马逊云(AWS)、谷歌云(GCP)和 Microsoft Azure。而在更底层的则是英伟达的GPU,其主力AI 芯片A100、H100 承载了绝大多数 AI 模型训练与开发,占据 AI 服务器硬件成本的近90%,英伟达凭借强大的芯片性能以及 CUDA 软件生态系统,围绕 AI 算力建立了深厚的护城河,毫无疑问是本轮生成式 AI 的最大受益者。此外包括网络设备(Marvell、Arista、博通),数据存储(MongoDB、Teradata、Snowflake),服务器(Smci)等环节的基础软硬件厂商也均有不同程度的受益。
目前 AI 应用特别是 B 端的应用还处于早期,应用层从商业化以及兑现时间来看预计要晚基础设施层 2-3 个季度,今年以来头部应用厂商股价同样也有所演绎。今年年初至今涨幅靠前的AI 应用公司有:Palantir(136%)、shopify(92%)、Salesforce(67%)、ServiceNow(52%)、Palo Alto Networks(74%)、Adobe(67%)、Duolingo(109%)、LegalZoom(46%)、TTD(78%)。相较于 AI 基础设施厂商已经能够从模型训练所产生的巨大需求,来验证到订单和业绩,美股 AI 应用公司业务基本集中在 B 端,大多还处于产品打磨阶段或者商业化早期。部分赛道上龙头公司包括 MS、Salesforce、ServiceNow、Shopify 已经发布了生成式AI 产品,其中MS、Salesforce 公布 AI 产品的定价,预计从今年 Q4 到明年Q1 能够看到B端应用商业化的初步落地,此外也有部分公司如 Palantir、Palo Alto Networks 的生成式AI 产品已经在实际场景中得到应用且已经带来了明显的收入贡献,但大多数 B 端的 AI 应用厂商还尚未进入到实质性商业化阶段,因此总体来看,AI 应用层厂商从兑现节奏来看要明显晚于基础设施层。
今年以来 GitHub、Replit 等开发者社区的 AI 项目实现了爆发式的增长。根据斯坦福大学在 22 年底发布的《2023 年人工智能指数报告》中的数据,全球最活跃的开发者社区GitHub上的 AI 相关项目数量近 10 年以来稳步增加,从 2011 年的 1536 个增加到2022 年的347934个,而在今年以来,GitHub 上 AI 开源项目迎来了大幅度的增长,截止8 月底数量达到了91万,相较于去年全年的增幅达到 264%。同时,根据另一开发者社区Replit 的数据,2022年第四季度以来,人工智能项目激增,23 年第二季度末 AI 项目数量达到了30 万个,其中16万个项目是在23 年第二季度创建的,相较于 23 年第一季度环比增速达 80%,而相较于去年同期数量增长了34 倍,且现在仍处于加速增长的趋势
OpenAI 在大模型上依然具备统治级地位,同时基于开源模型项目数量正在快速增长。根据开发者社区 Replit 的数据,截止 2023 年二季度,95%以上的应用项目均是基于OpenAI 的模型来构建,而包括 Cohere、Cohere 以及 Google 在内的其他模型合计占5%。同时,开源模型的数量正在快速增长,Hugging Face 和 Replicate 作为开源模型的API 和SDK提供商,是开源模型的重要入口。23 年二季度,Replit 平台上开源模型的项目超过5000 个,相较于Q1增长了141%,其中超过 70%的项目使用了 Hugging Face,但 Replicate 的使用量增速更快,Q2相较于Q1达到了约 6 倍的增长。此外,截至 23 年二季度,Replit 上有近25000 个活跃的LangChain项目,其中 2 万个是在二季度创建的,比一季度增长了近 4 倍。
从投融资情况来看,2023 年是生成式 AI 创纪录的年份。根据海外知名投融资数据平台CBInsights 的统计数据,截至 2023 年第二季度,生成式 AI 的投融资数量达到86 笔,总金额超过141 亿美元,相较于去年全年的 25 亿美元,增长了 4.6 倍。其中,今年以来筹资金额最多的五家公司分别是:
1)OpenAI:全球人工智能研发的领导者,今年 1 月获得了微软的100 亿美元融资;
2)Inflection:于 6 月宣布完成 13 亿美元的最新一轮融资,由微软、英伟达和三位亿万富翁牵头投资,Inflection 于 5 月推出了首款产品即个人 AI 助理PI,主打陪伴以及为用户提供情绪价值,成为人工智能领域融资量仅次于 Open AI 的第二大初创公司;
3)Anthropic:由前 OpenAI 员工创办,语言模型 Claude 的开发商,是ChatGPT的主要竞争对手,今年以来融资金融达到 8.5 亿美元,其中年初谷歌投资了3 亿美元,5月完成了4.5亿美元 C 轮融资;
4)Adept:发布了自研的大模型 Action Transformer (ACT-1),今年3 月宣布获得来自包括微软、英伟达在内的 3.5 亿美元 B 轮融资;
5)Cohere:主要业务是给用户提供应用大语言模型的 API,帮助用户创建特有使用场景和独有数据的大模型,今年 6 月获得了 2.7 亿美元的 C 轮融资,投资者包括英伟达、甲骨文和Salesforce。
根据 Turing Post 的数据,截止 23 年 8 月已经 15 家生成式AI 公司达到了10亿美元+的估值,主要为大模型的开发商及 AI 工具厂商。其中,这 15 家公司达到独角兽估值门槛的平均时间仅近 4 年,而平均而言达到独角兽门槛的需要 7 年左右的时间。
大部分生成式 AI 项目还处在早期,大部分资金投向了包括大模型开发在内AI 基础设施层,而应用层资金流向仅占三成。根据 CB Insights 的数据,虽然生成式AI 今年以来有多起超过1亿美元的大规模融资,但是行业总体上仍处于起步阶段,根据CB Insights 统计的360家以上生成性人工智能公司中,27%尚未筹集任何外部股权融资,且超过一半的公司都处于A轮及更早轮次。同时,投融资的分布来看,自 22 年第三季度以来,包括大模型开发,API、MLOps、向量数据库等在内的 AI 基础设施层,在投融资的数量仅占总数的10%的情况下,投融资的金额占据生成式 AI 融资金额的 70%以上,这一方面突出了 AI 基础设施层资金密集型的特点,另一方面也体现了目前生成式 AI 还处在早期,应用层的项目尚不成熟。同时,约四分之一的生成性人工智能资金流向了通用型的 AI 应用,主要包括文本、图片生成等领域,同时通用型应用的数量占绝对主导,占比达 65%,而相比之下,垂直行业应用目前无论投融资的数量还是金额都要远低于通用型应用。
从应用层的融资中,人工智能助理(AI Assistants)获取的的资金最多,其次为文本、图像、代码及音频的生成。根据 CB Insights 的数据:1)生成式交互(GenerativeInterfaces)总体上占据了应用层融资的大部分,其中主要包括 AI 助理、通用搜索、生产力和知识管理,自22年第三季度以来共有 23 笔交易,金额达 27 亿美元,其中绝大多数资金流向了AI 助理;2)其次为文本类应用,主要包括社交媒体、市场营销、AI 伴侣、文本总结、邮件工具等领域的生成式 AI 工具,自 22 年第三季度以来共有 24 笔交易,融资金额达6.4 亿美元;3)视觉媒体类应用紧随其后,项目设计图像视频编辑、合成数据、视觉广告,产品营销,产品设计等领域,共有33 笔交易,总金额达 3.9 亿美元;4)代码同样是生成式 AI 的热门领域,应用领域包括代码生成、自动化命令行、代码检查、代码搜索、网站及应用创建等。
3)应用框架:应用的四大赛道与产业逻辑
生成式 AI 应用按应用领域可以分为:通过工具,通用软件、行业软件、智能硬件四大类。具体来看:
1)工具型应用:包括聊天机器人、搜索引擎、文本工具、AI 作画以及代码工具等,应用领域主要集中在 C 端,产品的同质化程度较高,对底层模型的能力存在高度依赖,目前C端应用正进入第一轮洗牌阶段;
2)通用软件:主要包括办公软件、企业服务、IT 运维、软件开发、网络安全、数据智能等领域,各个赛道上均已出现标杆产品,大多数是智能助理(Coplilot)的形态,预计将在四季度进入商业化落地的关键阶段;
3)行业软件:涉及金融、医疗、教育、工业、游戏、法律等多个行业,行业间差异化程度较大,2B 场景下产品目前成熟度仍低于通用软件,金融、医疗等头部厂商开始打造垂类大模型,未来对行业数据价值的充分挖掘是竞争的关键;
4)智能硬件:汽车、机器人、智能终端等,无论智能驾驶还是机器人均具备巨大的市场空间,当前的瓶颈在于感知层与决策层,需要计算机视觉等底层技术的进一步突破。
生成式 AI /大模型拥有三大底层元能力:感知、分析和生成:
1)感知:对文字内容的感知、对人类输入的需求理解能力,未来进化方向是从文字内容的感知到图像视觉的感知;
2)分析:对信息和知识的检索、归纳与整合能力,未来进化方向是推理和决策。
3)生成:文本生成能力较为成熟,未来进化方向为图片、视频、3D等多模态生成能力的进一步提升。
基于三大底层元能力,未来的 AI 应将沿着 AIGC(内容生成)、Copilot(智能助手)、Insight(知识洞察)、Agent(数字代理)四个重要的方向演进:
1)AIGC(内容生成):生成式 AI 的最主要变革是它能够生成创造新的内容,包括文本、图像、视频、代码、3D 模型等,AIGC 应用发展将取决于大模型及多模态技术的进一步的提升;
2)Insight(知识洞察):基于大模型实现对数据、信息、知识的分析与整合,为用户提供洞察并辅助决策,主要应用于金融、医疗、军事等领域的分析、研究和决策工具。
3)Copilot(智能助手):将 AI 的能力深入嵌入具体应用场景中,作为应用的AI 助手,能够主动理解使用者的意图并提供成型的方案,Copilot 是生成式AI 应用最广泛的产品形态;
4)Agent(数字代理):AI 智能体,相较于 Copilot,Agent 能够自动感知环境,通过自己的独立决策和行动来改变环境,并通过不断学习和自适应来提高性能,主要应用包括自动驾驶、机器人等。
工具型应用自去年下半年开始迎来爆发,主要产品包括聊天机器人、搜索引擎、文本工具、AI 作画以及代码工具,电商、营销、设计是比较常见的应用场景。工具型应用的产品属性决定了对底层模型存在的高度依赖,竞争的同质化程度较高,主流应用厂商开始寻求差异化的定位并且开始自研底层大模型。目前,聊天机器人、文本生成、代码生成等领域的工具大多是基于GPT-4,但产品功能上与 GPT-4 重叠度较高,比如文本工具Jasper AI 虽然集成了GPT模型的能力,但由于自身的场景化的壁垒不够,因此也在 GPT-4 的冲击下,流量开始明显下滑。而AI作画应用普遍基于扩散模型,虽然 DALL-E2 的发布早于 MidJourney,但是随着模型能力和视觉表现上的提升,MidJourney 超越了 DALL-E2 成为了目前最流行的文生图在线工具。目前的主流工具型应用一方面会更多寻求差异化定位,比如 Character.AI、Infectetion AI 定位于主打陪伴和虚拟角色的聊天机器人,另一方面也在正在打造自己的大模型。工具型应用自去年下半年以来经过爆发式增长期,在 6 月 ChatGPT 访问流量首次出现下降,在新一代大模型技术迭代前,行业正在进入第一轮的洗牌期。
从工具型应用的几个应用领域具体来看:
1)聊天机器人:ChatGPT 目前仍是流量最大的 AI 聊天机器人,虽然在今年6-8月流量有小幅下降,但总体来看,依托于底层模型的强大能力,市场地位仍非常稳固。另一类是主打陪伴,能够创建虚拟角色的聊天机器人,代表有 Character AI 以及Infectetion AI 的聊天机器人PI,这类机器人更注重人格属性,与 ChatGPT 形成差异化竞争,用户可以完全自己创作角色来满足社交、情感、陪伴等需求,目前这类应用的流量还在稳步增长。这一领域的头部厂商大多在开发自己的大模型,其中 Inflection AI 表示计划打造一个包含大约 2.2 万块英伟达H100芯片的计算集群,总计算量估计是用于训练 GPT4 全部计算量的 3 倍。未来聊天机器人更具前景的应用是集成于文档、网页、知识库等具体的应用环境中,以 AI 助手(Copilot)的方式与用户进行交互,包括回答问题、提供建议、执行任务等,这也是这类产品未来演进的主要方向。
2)搜索引擎:生成式 AI 与搜索引擎的结合具体体现在,传统搜索引擎主要基于关键词匹配,而基于大模型的搜索的核心在于意图理解和内容生成,具备了整合、提炼、串联信息的能力,能更好地应对开放式问题。今年 2 月微软将生成式 AI 整合到了自家搜索引擎中,并命名为“New Bing”。在接入了之后 GPT,Bing 访问量虽然有一定程度的增长,但目前来看还远未能撬动谷歌在搜索引擎市场的绝对领先地位,同时谷歌也推出了Google Bard 来应对NewBing的冲击,除了微软和谷歌等巨头之外,目前硅谷还有不少 AI 初创企业投入到了搜索引擎这一赛道。
3)写作工具:文本写作类 AI 工具大多是基于 GPT 模型,在模型进行一些定制性的优化,或者通过预先设置 Prompt,来满足一些文案生成的需求,整体上看对GPT 等底层大模型有较大的依赖,竞争力在于场景化定制的模板和功能。目前头部的应用有Notion AI、Jasper AI、CopyAI 等,其中 Notion AI 侧重通用写作,主打全面的文本生成和内容编辑功能,而Jasper AI、CopyAI 更侧重于营销工具,内置了广告文案、邮件、博客文章、推文等数十种模板和文案功能。目前来看这一领域的产品同质化程度较高,在 GPT-4 的冲击下,头部的写作类应用包括JasperAI近三个月流量开始快速下滑。
4)AI 作画:主流三大文生图工具为 DALL-E2、Stable Diffusion、Midjourney,其中DALL-E2与 MidJourney 是闭源模型,可以实现在线访问,使用门槛低,用户输入一定提示词后即能实现文生图。虽然 DALL-E2 的发布早于 MidJourney,但是随着MidJourney 在视觉表现上超越了DALL-E2,成为了目前最流行的文生图在线工具。Stable Diffusion 主要走开源路线,可以在用户本地部署与运行。目前开源和闭源工具在商业模式上也存在较大差异,MidJourney能够通过向用户直接提供订阅服务来收费,而 Stable Diffusion 的基础模型免费,主要通过为企业提供定制模型来实现商业化。
5)编程工具:GPT-4 自身的在编程能力上相较于之前版本有了很大程度的提升,除了代码生成能力之外,在容错空间更大的重构代码、代码测试以及修改bug 等环节得到了更频繁的应用,能够带来研发过程中显著的效率提升。同时包括 Github、HuggingFace、Replit 等开发者社区今年以来的项目和流量大幅增长,今年 3 月 Github 发布了接入GPT-4 的新版本编程辅助工具Github Copilot X,在之前的代码生成等基础功能上增加了语音扩展、智能文档、自动告警、自动扩写等功能,是市场上最先进的 AI 辅助编程工具。
在通用软件市场,生成式 AI 在办公软件、企业服务、IT 运维、软件开发、网络安全、数据智能等应用已经率先落地,并已经进入商业化的前期。主要赛道上均有标杆产品出现,大多数是智能助理(Coplilot)的形态。包括办公软件领域的 Office 365 Copilot,以及企业服务领域的Salesforce Einstein GPT,目前产品已经公布定价,预计将在四季度进入商业化落地的关键阶段;此外解决方案型的 AI 厂商商业化落地的竞争更快,比如 Palantir、Palo Alto Networks的生成式AI 产品已经在实际场景中得到应用且已经带来相应的收入贡献。具体来看:
1)办公软件:主流的 AI+办公应用包括微软 365 Copilot 和谷歌Duet AI,目前全面嵌入了Microsoft Office 及 Google workspace 办公套件,在这一领域的竞争对手主要包括聚焦在文字、表格、演示文稿(PPT)、邮件、笔记等单个应用领域的 AI 生产力工具,头部应用有文本类的Notion AI、jasper AI、Copy AI,表格类的 SheetAI、演示文稿类的Tome、SlidesAl 等。目前微软作为办公软件巨头,凭借 Office 套件的用户基数和网络效应,在这一赛道占据明显优势。7月Microsoft 365 Copilot 定价公布,未来 AI+办公具备非常清晰的商业化前景。
2)创意软件:与办公软件格局类似,目前主流 AI+创意软件包括Adobe Firefly、CanvaAI等套件类产品以及单点工具产品。今年以来 Adobe 股价走势强劲,得益于AI 的驱动以及业绩的超预期,年初至今涨幅达到 67%。Adobe Firefly 的优势在于与Adobe 现在有的产品能够实现很好的结合,为用户提供了大量的选项、素材、模板、工具包,进一步降低了用户画图、修图的门槛,而不像 Midjourney 更依赖提示词。同时,Adobe 对于训练数据的要求非常严格,对于必须确保输出图像版权的用户,Adobe Firefly 具备很大优势。但由于训练素材来源受限,这也会导致在生成的性能上弱于拥有一些主流文生图工具公司。目前 Adobe 已经明确提出将启动AdobeFirefly 的商业化。
3)企业服务:目前生成式 AI 已经与企业服务领域的主要产品CRM、ERP、财务、HR、OA 实现了不同程度的结合,短期来看营销、客服领域(CRM)的产品成熟度最高,龙头厂商Salesforce 已经初步实现商业化。同时目前 ERP、财务、HR、OA 已经相对应的AI+产品推出,主要侧重于利用 AI 进行数据挖掘来实现业务洞察和流程优化,相关产品功能还尚待完善,且还未进入商业化阶段。从参与厂商来看,这一领域的主要参与者仍是各个赛道上的主流玩家,包括CRM 领域的 Salesforce、ERP 领域的 Sap、Oracle,HRM 领域的Workday。同时微软3月发布了 CRM 和 ERP 领域的生成式 AI 产品 Dynamics 365 Copilot,是AI+企业服务领域的有力竞争者。
4)IT 运维:而大模型/生成式 AI 能够进一步提升 IT 运维的自动化和智能化水平,体现在其具备更强大的数据分析能力,以及更高效的人机交互模式,目前这一领域的龙头厂Servicenow已经推出生成式 AI+IT 运维的相关产品,并发布了未来生成式AI 的产品路线图。同时,针对监控 OpenAI 等大模型 API 的使用情况及 Token 的消耗的需求,Datadog 已经推出了监控各种OpenAI 模型 API 使用模式、成本和性能的产品,帮助用户对于了解内部大模型的使用情况以及控制成本。
5)软件开发:虽然生成式 AI 本身具备很强的代码生成能力,代表包括GPT-4以及Github今年发布的编程辅助工具 Github Copilot X,但是由于生成式AI 自身存在的幻觉等问题,仍然难以大规模应用于大型软件开发工作流程中。目前行业主流低代码平台中提供了企业级开发工具,具有内置的安全性、性能叉兼容性等方面的机制,可防止开发人员在使用AI 编程时生成存在安全漏洞或不可靠或未知依赖项的代码。目前头部的低代码厂商包括微软、Salesforce、ServiceNow等企业服务巨头和 OutSystems、Mendix 等第三方厂商均正在布局这一赛道,此前微软低代码套件 Power Apps 就是 GPT-3 首批商业化应用,而 Salesforce、ServiceNow也将AI+低代码能力其集成到自身的解决方案之中。
6)网络安全:生成式 AI+安全的最大机会来自于安全运营的自动化程度的提升。3月微软发布了首个基于大模型的 AI+安全大脑形态 security copilot,此后Palo AltoNetworks,Crowdstrike,Fortinet 等头部安全厂商均发布了 AI+“安全大脑”产品,其中包括PaloAltoNetworks 的 XSIAM、Crowdstrike 的 Charlotte AI。AI+“安全大脑”所带来的的安全运营能力提升主要体现在两个方面,一是威胁检测,即发现问题的能力,二是响应处置,即解决问题的效率。在 AI 驱动下,今年头部安全厂商 Palo Alto Networks,Crowdstrike,Fortinet 的股价均有强劲表现。
7)数据智能:数据智能的头部厂商为全球大数据龙头厂商Palantir,今年推出了生成式AI平台 AIP,可用于军事和商业领域。目前 AIP 在军事和国防领域已经开始实际应用,军队可以利用 AIP 平台,不仅显示和分析战场的情报,增强对全面作战态势的感知,并参考AIP提出的作战计划来辅助决策,拥有改变军事规划和决策的能力。此外,全球主流的综合IT服务商和IT咨询公司均推出了生成式 AI 相关的产品及解决方案,未来在底层模型和算法普惠的趋势下,这一领域比拼的将是客户资源以及对垂直行业的深度理解。
目前生成式 AI 在游戏、法律、教育、电商等 C 端场景有较多的结合,而在医疗、金融、工业等 B 端场景下生成式 AI 产品的成熟度仍然偏低。在行业类应用场景中是AI 助手(Copilot)同样得到了广泛应用,而未来在金融、医疗、工业等领域,最具前景的应用来自于数据挖掘和知识洞察(Insight)类工具。同时,相较于通用大模型,垂直行业大模型在金融、医疗等领域有着更加深度的应用,一是由于安全及隐私保护等要求,行业数据大多存储在本地,通用大模型在缺乏必要的训练数据,二是垂直行业的数据量级大,涉及系统又比较复杂,通用大模型在解决专业问题的能力上不如垂类大模型。包括彭博社推出的金融大模型Bloomberg,以及Meta公司推出的蛋白质大模型 ESMFold 均证明了垂类大模型的专业性能要超过通用大模型,目前各行业头部厂商也在开始自建垂类大模型。
1)金融:生成式 AI 技术在金融领域的主要应用为数据分析工具,通过对金融大数据的挖掘来实现知识洞察,典型应用包括证券领域的智能投顾,银行领域的智能风控等。其中,证券侧重于智能投研,功能包括研报生成、财务数据查询、盈利预测、投资组合建议等代表性产品有金融数据分析工具 FinChat 等;银行则侧重智能风控,通过对客户的信用历史、行为特征等数据进行分析,挖掘风险因素,实现信贷风险、反欺诈、反洗钱等行为预警,目前主要有开源模型FinGPT。同时,今年彭博社推出了专为金融行业从头打造的 500 亿参数大语言模型BloombergGPT,训练数据来自于彭博社的财务数据,涵盖了金融领域的一系列主题,生成了7000多亿个标签的大型训练语料库。BloombergGPT 在金融领域的任务普遍拥有着超过通用大模型的表现。
2)医疗:化合物合成、靶点发现等医药研发是此次生成式AI 变革突破的新场景。其中,医药研发目前主要通过 AI 大模型生成新型小分子、核酸序列和蛋白质,以及识别靶点、药物筛选等,代表性产品包括 AbSci、Integrated Drug Creation、CentaurAI 等;医院诊疗主要用于病历生成、诊疗建议、分析诊疗记录等,以提高诊疗效率。目前,主要有MyChart、SlicerDicer、DAXExpress 等产品。此外,医疗器械,如 CT、MRI 等与图像相关的一体化器械,在生成式AI 的赋能下将进一步增强医学图像等非结构数据的处理能力。
3)教育:生成式 AI 目前主要应用于面向 C 端的语言学习和学习工具场景,目前率先实现商业化。其中,语言学习龙头厂商 Duolingo 基于 GPT-4 推出的Max 版本新增了ExplainMyAnswer 和 Roleplay 两项功能,订阅价格翻了 4 倍,同时带动了Duolingo 股价的上涨,年初至今涨幅最高超 130%;学习工具 Khanmigo 定价 9 美元/月,Q-Chat 订阅为7.99美元/月,CheggMate 计划定价在 15.95 美元-19.95 美元之间。此外,在线教育场景旨在改善其现有功能,仍处于探索阶段。
4)工业:当前大模型的应用主要聚焦在研发设计中的创成式设计、草图生成等辅助类设计的应用,以及运维管理中业务流程信息化 CRM、ERP 等软件,生产制造环节由于生产环境的安全性与稳定性要求较高,生成式 AI 技术应用还未完全成熟。目前,工业大模型参与者主要包括工业软件厂商、互联网科技厂商、平台厂商等,但由于工业场景的复杂度,很多数据不可读取,因此工业软件厂商、平台厂商通常与具备大模型能力的互联网科技厂商进行合作。
5)游戏:游戏创作效率的提高是生成式 AI 赋能游戏行业最显著的特点。一方面,生成式AI 技术能够从现有视频中直接捕获动画,无需通过演员穿戴动作捕捉服进行记录,节省人力成本。目前,Kinetix、DeepMotion、Move Ai 等公司正在探索这一领域;另一方面,生成式AI能够帮助游戏开发者大幅减少游戏设计时间和成本。代表性产品有Unity 的创建游戏AI 工具UnityMuse和推理引擎工具Unity Sentis和Roblox的游戏创建工具Code Assist和Material Generator。此外,初创公司正在探索利用生成式 AI 技术创建游戏中的 NPC 角色,来增加游戏的自由度和体验。
6)法律:诉讼文书的制作和“示意证据”的生成是目前AI+法律应用最广泛的领域。其中,诉讼文书的制作是 AI 最早的应用领域,能够有效提高法律文书的审查与制作效率与准确性;“示意证据”能够以生成文本、图片、视频、音频、模型的方式展示证据,辅助司法人员直观地观察和理解证据。 表 4:行业软件各赛道主要产品 分类
AI+智能硬件:目前生产式 AI 与智能硬件的结合主要分为两个方面:一是个人助手,应用场景包括智能座舱、智能音箱、家用机器人等各类智能终端,相较于过去的语音交互模式,大模型和生成式 AI 技术提升了感知和生成能力,进而带来了用户体验的提升,但是总体而言产品门槛相对较低,另一类则为数字代理 AI Agent,主要应用包括自动驾驶、智能机器人等,具备更加广阔的应用空间。AI agent 能够感知环境、进行决策和执行动作的智能实体,接收输入数据(例如传感器信息、文本、图像等),通过分析和处理这些数据,理解环境和任务要求,并做出相应的决策和行动。目前 AI Agent 在感知与决策能力上仍存在瓶颈,未来突破的关键在计算机视觉等底层技术的突破。
1)汽车:生成式 AI 目前主要应用于智能座舱内的车载语音助手,以及自动驾驶数据标注、算法迭代、仿真系统等场景。其中,车载语音助手在生成式AI 的赋能下不需要唤醒词即可实现语音交互功能,缩短响应时间。代表性产品为 Cerence Studio;自动驾驶方面,生成式AI 技术不仅能够提高数据处理环节自动标注的效率,还能加强自动驾驶感知与规控精度,加速自驾算法迭代,以特斯拉 FSD 算法为代表。
2)机器人:生成式 AI 对于人机交互能力的提升将率先促进人形机器人、服务机器人成为“具身智能”的载体,而工业机器人由于工业领域的环境复杂度较高,以及与人交互需求较低,更依赖于机器视觉、神经网络等技术的突破。其中,人形机器人已经初步实现商业化应用,1Xtechnologies 研发的 EVE 实体机器人已经作为安保机器人投入使用,而下一阶段将在医院、养老院等场所投放;服务机器人面向 C 端,通常应用于清洁、外送、商场等场景,通过生成式AI 实现语音、图片等多模态方式输入,预测并理解用户当下情感,及时作出反应,旨在降本增效。主要有礼宾机器人 Connie,餐饮机器人 Adam、自主安全机器人ASR等。
生成式 AI 产品目前的商业模式主要包括功能订阅、按量付费、产品销售等,其中C端应用以功能订阅和按量付费为主,B 端应用则主要为功能订阅和产品销售。由于生成式AI 应用在调用大模型 API 时会产生固定费用,因此并不适合采取与互联网应用类似的免费获客的商业模式。目前第一批生成式 AI 应用包括 Jasper AI、Notion AI、MidJourney 等均已经成功实现商业化,其中 Notion AI、Jasper AI 等文本类应用大多采取订阅付费的方式,大多定价在20-50美元/每月,同时 Office 365 Copilot 包含了全部办公套件的 AI 功能,定价30 美元/月。而在图片生成应用中,MidJourney 采取功能订阅的方式进行收费,区间为 10-60 美元/月,目前已经实现超1亿美元收入。同时按量收费也是生成式 AI 应用普遍的收费方式,比如 DALL-E2 采用积分制进行图像生成,每条指令可以生成 4 张,15$可兑 115 积分,相当于每条指令0.13$或每张图0.0325$。
B 端即将进入全面商业化阶段。7 月微软 Office 365 Copilot,Salesforce EinsteinAI 等海外标杆 AI 应用定价公布,且定价超出预期。其中,面向 Office 365 E3、E5、商业标准版和商业进阶版的订阅商户,Office 365 Copilot 的定价为每个用户 30 美元/月。相较于Office主线产品15-30美元/月的定价,此次针对 AI 功能的单独定价显著超出预期,最高提升了2 倍以上。同时全球CRM 龙头 Salesforce 宣布正式向所有用户开放 AI 产品,服务GPT 和销售GPT两个独立模块分别单用户每月付费为 50 美元。此外,Palantir、PALO ALTO NETWORKS的AI 产品已经在实际场景重得到应用且已经带来相应的收入贡献,四季度 AI 应用将正式进入商业化落地阶段。
二、生成式 AI 应用细分赛道梳理
1)AI+办公软件
办公软件通常包含了文字、表格、演示文稿(PPT)等工具,是本轮生成式AI 浪潮中产品逻辑变化最大的细分领域之一。目前主流的 AI+办公应用可以分为两大类别:一类是办公套件的AI 助手,主要有微软 Copilot 和谷歌 Duet AI,目前全面嵌入了Microsoft Office及Googleworkspace 办公套件,并已经初步实现商业化;另外一类是单点AI 工具,通常包括了文本类的Notion AI、Jasper AI、Copy AI、Anyword,表格类的 SheetAI、演示文稿类的TomeAI、SlidesAl等,此外还有许多功能更加细分的产品,比如笔记、思维导图、简历制作,协同办公等工具,目前常见的 AI+生产力工具已经达到了上百种,这也是 AI+应用中数量最多的一类。具体来看:
1)文本类:在各类单点工具中,目前文本写作类应用占据了半壁江山,这与语言大模型的成熟较高有直接关系,自 GPT-3 发布之后,大量的文本类 AI 工具开始涌现,这些应用普遍大多是基于 GPT 模型,自己再做一些定制性的优化,也有很多是基于gpt 等模型的api,通过预先设置 prompt,来满足一些文案生成的需求。目前头部的应用 Notion AI、Jasper AI、CopyAI、Anyword等,主打更加全面的文本生成和内容编辑功能,同时 Jasper AI、Copy AI 更侧重于营销工具,生成广告文案、产品描述、邮件、博客文章、推文,通过内置多达数十种营销模板和文案生成的功能;
2)电子表格类:这一领域目前尚未出现大量类似 Notion AI 这类文本工具,主要原因在于电子表格的核心在于计算,目前主要的创新点是将电子表格合并到文档环境中以及强化电子表格的代码和自动化计算能力。目前 Excel 的领先地位仍难以被撼动,其最大竞争对手是GoogleSheets,功能上基本保持一致,主要区别在于在线分发,可以简化协作;
3)演示文稿类:生成式 AI 能够帮助使用者快速构思创作框架并流畅展开内容创作,这一领域中 Powerpoint 和 Slides 是最常用的演示文稿工具,新兴工具包括Gamma AI、ChatBA、SlidesAI、Tome AI 等,其中 Gamma AI、Slides AI 强调模板功能,内置多种主题库并提供图文、视频等创作素材,而 Tome 为 AI 原生应用,能够根据自然语言提示生成整个幻灯片,对各个幻灯片进行修改或添加新幻灯片。
AI+生产力工具的变革主要体现在内容生成、人机交互和数据利用三个层面,短期来看,生成式 AI 所带来的内容生成效率的提升体现的最为明显,长期看,人机交互和数据利用能够为办公软件的使用体验带来更大幅度的提升:
1)内容生成:生成式 AI 技术大幅提升了内容生产的效率,文字、图片、PPT、表格等各种内容能够大大节省在日常办公场景中制作 PPT、画 Excel 图、写Word 文档中相关的内容生成、排版、微调所需要的时间。其中文字内容的生成最为成熟,因此AI+办公工具中文字、文档、笔记类的工具的数量占据了半壁江山。
2)人机交互:从过去菜单、指令、快捷键式的交互方式转向了自然语言、多轮对话的方式进行交互,一方面是能够大幅提升办公软件的使用效率,另一方面是大幅降低了办公应用的使用门槛,能够让使用者以简单自然语言的方式,使用产品中的复杂功能。比如在EXCEL中有数千个可用命令,常用的仅数十个,现在可以使用自然语言来解锁更加丰富的功能。
3)数据利用:基于 AI 技术能够充分挖掘出沉浸在用户的历史数据当中的信息,包括对文本、图像、HTML、各类报表等结构化和非结构化数据进行关联分析,实现更加深度的数据利用,比如对于证券行业的用户,可以对自己存储的研究报告,会议纪要等进行充分的关联和分析,来实现数据价值的最大化。
AI+办公应用的标杆:微软 365 Copilot 。365 Copilot 在今年3 月发布,集成了GPT-4,将大模型(LLM)与 Microsoft Graph 的业务数据、Micros Office 365 中各类应用相互结合。使用方式包括:1)嵌入调用,即在 Word、Excel、PowerPoint、Outlook、Teams 等应用中直接调用 Copilot 完成各种任务,包括在 Word 中的文本内容生成、文字内容优化包括检查错误、风格转换、润色扩写等;Excel 中根据用户的问题生成表格或数据模型,并创建可视化图表等,高级功能包括了数据透视表和生成及趋势解读、SWOT 分析等;PowerPoint 中可以将现有的书面文件转化为带有演讲者笔记和资料来源的演示文稿,或者从一个简单的提示或大纲开始一个新的演示,并使用自然语言命令来调整布局、重新编排演示文稿;2)独立使用,Copilot 还提供了一个全新的独立式交互方式——Business Chat。用户可以通过自然语言与Copilot 进行对话,像与真人助手一样完成各种任务。此外 Microsoft Graph 则是微软提供的一个平台,可以将用户在Office 365 中使用过的日历、邮件、聊天、文档、会议等数据进行整合和分析,并实时反馈到用户现在工作流程包括会议、邮件等,以提供准确、相关的上下文响应。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
本报告总计:95页。
受篇幅限制,仅列举部分内容!
报告来源公众号:【百家全行业报告】
36氪 2024-12-25
IT之家 2024-12-25
科技狐 2024-12-25