当前位置:首页|资讯|人工智能

BVP风投:专为人工智能打造的基础设施存在巨大机遇

作者:猜想笔记发布时间:2024-07-12

本文来自Bessemer Venture Partners,是一家总部位于旧金山的美国风险投资和私募股权公司。在美国以外,该公司在印度、以色列、香港和英国设有办事处。2022 年,《风险投资杂志》根据最近五年的总融资额将该公司评为第八大风险投资公司。

Bessemer 在基础设施投资方面有着悠久的历史:从与Habana和Intucell等芯片和半导体领导者合作,到在早期阶段支持开发者平台先驱Twilio和Auth0 ,再到与HashiCorp和Imply等开源领导者一起参与现代数据堆栈运动。今天,另一波浪潮正在袭来,人工智能迎来了新一代基础设施工具,这些工具专为在其平台中利用人工智能的企业而构建。

//

人工智能革命正在催化数据堆栈的演变

近年来,机器学习取得了显著的进步。自 2017 年突破性的论文“注意力就是你所需要的”为Transformer深度学习架构奠定基础以来,我们现在已经迎来了人工智能研究的寒武纪大爆发,每天都有新的论文发表,并以惊人的速度增长。

人工智能创新的这一巨大转变正在催化许多领域数据基础设施的演变。

首先,人工智能为现代数据堆栈提供动力,现有的数据基础设施公司已开始在数据管理中整合人工智能功能,以实现综合、检索和丰富。此外,认识到人工智能浪潮作为商业机会的战略重要性,一些现有企业甚至发布了全新的产品来支持人工智能工作负载和人工智能优先用户。例如,许多数据库公司现在支持嵌入作为一种数据类型,无论是作为新功能还是独立产品。

其次,数据和人工智能密不可分。数据继续以惊人的速度增长,突破了当前基础设施工具的极限。预计到 2030 年,生成的数据量(尤其是非结构化数据)将猛增至 612 ZB,这要归功于 ML/AI 热潮和所有模态生成模型生成的合成数据。(1 ZB = 1 万亿 GB 或 10 亿 TB。)除了数量之外,数据类型和来源的复杂性和多样性也在不断增加。为了应对这种情况,各公司正在开发新硬件,包括更强大的处理器(例如 GPU、TPU)、更好的网络硬件以促进高效的数据移动,以及下一代存储设备。

最后,基于机器学习和硬件领域的最新进展,新一波 AI 原生和 AI 嵌入初创公司正在涌现——这些公司要么从头开始利用 AI/ML,要么利用它来增强现有能力。不幸的是,目前许多数据基础设施和工具仍未针对 AI 用例进行优化。就像将方枘圆凿一样,AI 工程师不得不在现有基础设施中创造变通方法或破解方法。

专为人工智能打造的新兴基础设施堆栈

近年来,随着众多“为什么是现在”的顺风势头的形成,原生和专用工具的缺乏为原生 AI 和嵌入式 AI 公司建立新的 AI 基础设施堆栈铺平了道路。

我们正处于一场大规模的技术变革之中——这一新兴的人工智能基础设施堆栈的创新正以前所未有的速度发展。就在我们撰写这份路线图并发展我们的观点时,研究人员每天都在发表新的论文,使以前的观点过时。快速变化的环境令人生畏,但尽管存在未知变量,初创企业的潜力和机会仍然广阔。

正如通常情况一样,我们在革命发生时进行投资。每天都有新的前沿研究发布,有时感觉脚下的地面正在移动。我们不断将最新发展纳入我们的论文。以下是我们关注的几个主题:

1. 扩展方面的创新、新颖的模型架构和专用的基础模型

模型层正在成为 AI 基础架构堆栈中最具活力和竞争最激烈的层。基础模型是新的“石油”,鉴于堆栈这一部分的战略重要性,随着越来越多的公司在其启发式方法的基础上进行构建,这里的赢家可能会决定未来许多年下游应用程序的未来。

因此,我们看到模型层的活动呈爆炸式增长——从开源模型到小型语言模型。大部分活动和资本都集中在扩展基于转换器的模型(即通过数据、模型并行性、混合模态等)或尝试推动这些模型实现各种性能属性(例如成本、延迟、部署、内存占用、上下文窗口等)。例如,几个团队正在改进生成模型的构建块(原语),例如注意力和卷积机制,以创建更强大、更有能力和更高效的人工智能技术。由于模型训练的资本密集度,许多这些努力都是由风险投资资助的。除了培训成本外,在这一层进行创新还需要高标准的人力资本和专业资源以及适当的研究和工程人才组合。我们将在即将发布的2024 年云状态报告中介绍更多模型层创新、竞争和资金动态的现状。

但“注意力并不是你所需要的一切”——研究人员也在开发非基于 Transformer 的架构,他们不断突破基础模型的极限。例如,状态空间模型 (SSM),如Mamba,和各种循环架构正在扩展计算强度较低、延迟较低的基础模型的边界,可能为训练和推理提供比传统 Transformer 更便宜、更快速的替代方案。专注于动态连续系统的 SSM 自 1960 年代就已经存在,但最近才被应用于离散端到端序列建模。线性复杂性也使 SSM 成为长上下文建模的绝佳选择,我们看到多家公司在这方面蓬勃发展。虽然早期结果表明各种属性的效率令人印象深刻,但研究人员还有很长的路要走来证明 Transformer 生态系统中现在被视为理所当然的各种属性(例如控制、对齐、推理)。

此外,几何深度学习领域的开创性研究(包括分类深度学习和图形神经网络)正在为研究人员提供结构化推理方法。虽然这个领域已经存在了很长一段时间,但它在新一波人工智能中重新引起了人们的兴趣,因为几何方法通常使深度学习算法能够考虑嵌入在现实世界数据中的几何结构(例如代码中的抽象语法树、生物途径等),并且可以应用于各个领域。

此外,除了通用模型之外,目前有大量团队正在训练特定用途的模型,用于代码生成、生物、视频、图像、语音、机器人、音乐、物理、脑电波等,为模型层增加了另一个多样性和灵活性的载体。

2. 模型部署和推理的创新

计算层是 AI 基础架构堆栈中最复杂的层之一,不仅因为它是为堆栈的其他部分提供动力的核心层,还融合了硬件(如 GPU 和定制硬件)、软件(如操作系统、驱动程序、配置工具、框架、编译器以及监控和管理软件)和商业模式中的创新和交互。大型现有企业和初创公司都在这个领域进行创新,这增加了这种复杂性。

在硬件层面,随着供应链短缺问题缓解,GPU 成本正在下降。下一代 GPU(例如 NVIDIA 的 H100 和 B100 系列)与互连技术的进步相结合,正在扩展模型层的数据和 GPU 并行性。

除了硬件之外,各种算法和基础设施创新正在实现新的 AI 功能。例如,Transformer 架构中的自注意力机制已成为一个关键瓶颈,因为它对计算的要求很高——具体来说,是二次时间和空间复杂度。为了应对这些挑战,ML 系统社区发表了各种模型和底层研究:自注意力的演变(例如 Ring Attention)、KV 缓存优化(例如通道量化、修剪、近似)等。这些创新减少了 LLM 解码步骤的内存占用,从而实现了更快的推理、更长的上下文和成本效率。

随着我们转向个性化、更便宜的微调方法,许多悬而未决的问题仍然存在。LoRA 等方法已经解锁了内存和具有成本效益的微调,但事实证明,可扩展地管理 GPU 资源以服务于微调模型非常困难(GPU 利用率往往很低,并且将权重复制到内存中和从内存中复制出来会降低算术强度)。虽然批处理、量化和无服务器基础设施中更高层次的改进使基础设施更加交钥匙,但仍有许多唾手可得的成果。Skypilot 和 vLLM 等项目以及 Modal、Together AI、Fireworks 和 Databricks 等公司正在推动这一领域的发展。

该层的供应商对利用其服务的 AI 应用公司的单位经济效益(尤其是毛利率)产生巨大影响,我们预计这些动态将继续根据下游应用的需求推动创新。

3. 前沿的模型训练和开发技术

如前所述,人工智能研究正在以惊人的速度发展,最值得注意的是,我们正处于一个令人兴奋的时期,在预训练、训练和开发方面,新的人工智能方法和技术正在蓬勃发展。每天都有新方法被开发出来,现有方法也在不断发展,这意味着人工智能基础设施堆栈正在被动态地定义和重新定义。

我们看到这些技术在各个方面蓬勃发展,推动了 LLM 和扩散模型输出在基本性能参数(例如准确性和延迟)方面的进步,一直到突破新领域的极限(例如推理、多模态、垂直特定知识,甚至是代理 AI 或新兴能力)。我们在第一部分中重点介绍了一些架构范例,但其他技术示例包括:

  • 微调和调整:监督反馈、专门的训练数据或优化权重以使模型适应特定任务(例如 RLHF、体质 AI、PEFT)
  • 检索增强生成 (RAG):通过检索机制将 LLM 连接到外部知识源,将生成功能与搜索和/或合并来自相关知识库的数据的能力相结合
  • 提示范式:一个交互式过程,其中 LLM 被指导并引导至期望的结果(例如,小样本学习、多样本情境学习、后退提示、CoT、ToT)
  • 模型混合与合并:混合单独的 AI 模型子网络以共同执行任务的机器学习方法(例如 MoE、SLERP、DARE、TIES、frankenmerging)
  • 训练稳定性:围绕规范化方法(例如 LayerNorm 与 RMSNorm)、规范化、激活和其他属性的决策可能会影响训练稳定性和性能
  • 参数效率:影响模型能力和效率的各种方法,例如高效的持续预训练

虽然实验的简单性与这些方法的有效性之间存在权衡,但我们预测,随着研究人员迭代速度加快并解决现实世界的可扩展性和适用性问题,这些技术将激发新的发展。此外,在应用人工智能中,部署多种技术的组合或组合是很常见的,但最终,产生最高性价比的方法可能会主导应用人工智能领域。此外,随着基础模型变得越来越好,以及越来越多的人工智能解决方案在生产中部署并受到现实世界的限制,格局正在动态变化。

最终,我们认为我们处于早期阶段,尚未形成霸权,尤其是对于企业 AI 而言。因此,我们很高兴与开发、实现或商业化这些技术的公司合作,因为这些公司将改变和重新构想我们在现实中构建、开发、运营和部署 AI 模型和应用程序的方式,并形成 AI 公司的关键工具层。

4. 人工智能时代的 DataOps 2.0

我们在本文开头就指出,数据和 AI 输出密不可分。我们看到这种情况发生在许多方面,从影响 AI 输出的数据质量(垃圾进垃圾出),到最近的 AI 创新从以前未开发的数据源(如非结构化数据)中解锁见解,再到专有数据作为 AI 原生公司的竞争优势和护城河。我们在《数据向右移动》一文中探讨了这种关系,并在我们最近的《数据指南》中重点介绍了公司正在利用的新数据策略,以优化 AI 竞争优势。

鉴于这些催化剂,对数据操作提出了新的要求,从而出现了用于存储、标记、流水线、准备和转换的新方法和框架。以下是一些令人兴奋的例子:

  • 在预处理阶段,我们看到数据管理和 ETL 解决方案的兴起,这些解决方案专为处理数据以供 LLM 理解而构建。
  • 新数据类型(例如嵌入)的出现启发了全新的数据操作类别,例如矢量数据库。
  • 在人工智能时代,数据注释已经发展到包含先进的以数据为中心的方法,这些方法加速了之前的手动或弱监督方法,并吸引了更多非技术终端用户加入。
  • 人工智能革命已使主流企业开始采用工具来处理各种形式的数据,尤其是非结构化数据(如视频和图像)。许多最先进的工具现已集成到日常工作流程中。以前,处理这些形式的数据非常困难,而且通常是定制的,导致组织无法从这些丰富的数据源中充分获取价值。
  • 随着组织利用模型训练和推理技术的创新,新的企业工具链和数据工作流(例如 RAG 堆栈)正在出现(参见第 III 部分)。

正如现代数据堆栈推动了数据运营领域标志性十角兽的崛起一样,我们相信,在对 AI 工作流程的关注下,新一代数据运营巨头将应运而生。

5. 下一代可观察性

随着每一波新技术的出现,可观察性也呈现出各种形式(例如,现代数据堆栈中的数据可观察性、云应用程序开发的 APM)。同样,我们看到可观察性在人工智能时代不断发展——出现了一套新的供应商来帮助公司监控模型和人工智能应用程序的性能。虽然我们已经看到许多公司进入市场解决一个关键问题,无论是在预生产阶段(例如,LLM 评估、测试),还是在后期生产阶段(例如,监控、捕捉漂移和偏差、可解释性),甚至扩展到相邻功能,例如模型安全性和合规性、智能路由和缓存,我们预计(并且已经看到)这些公司的长期路线图将融合为创建一个端到端的可观察性平台,为预生产和后期生产环境中的模型性能创建单一事实来源。

我们对 Datadog 类似成果在 AI 可观察性方面的成果充满期待——然而,考虑到新模型、新训练/微调技术和新类型应用程序的不断变化环境,在可观察性方面的成功可能需要一支能够以高速度交付产品的团队,也许比其他领域更需要这样的团队。正如我们从 Datadog 的崛起中了解到的那样,该公司能够从十几个其他(类似)竞争对手的拥挤环境中脱颖而出,因为他们专注于 a) 快速执行广泛的产品和功能集;b) 构建 Datadog 可以监控的深度覆盖范围;3) 实现广泛的集成支持,以便将尽可能多的相邻系统纳入其生态系统。我们很高兴能够结识并支持这些为 AI 堆栈做出如此努力的下一代初创公司。

6. 编排

随着新晋 LLM 和生成式 AI 应用公司不断壮大,我们看到编排层公司成为 AI 开发骨干的重要机会。编排供应商在 AI 开发生命周期中扮演着“管弦乐队指挥”般的角色,肩负着确保和协调 AI 应用程序开发、部署、集成和总体管理的重任,因此是一个关键的(更重要的是,供应商中立的)集中枢纽,可以协调开发人员遇到的各种 AI 工具的蔓延。

Langchain 和 LlamaIndex 等公司是 LLM 这一领域的早期突破者,其强大的开源生态系统推动着企业采用该技术。他们创建了框架,为开发人员提供了一套最佳实践和一套用于开发自己的 LLM 应用程序的工具包,在将正确的数据源连接到模型、实施检索方法等方面消除了大部分复杂性。除了 LLM,我们还看到一个供应商生态系统为基于代理的应用程序创建编排解决方案,进一步简化了新型创新代理 AI 应用程序的开发流程。就像 React 在简化 Web 开发方面取得的成功一样,我们预计 AI 编排供应商也将有类似的机会来简化开发,并使大众能够开发各种类型的 AI 应用程序(LLM、代理、计算机视觉等)。

人工智能基础设施业务存在巨大机遇

正如马克·吐温曾经说过的一句名言:“当所有人都在寻找黄金时,正是从事镐和铲子生意的好时机。”我们相信,为机器学习制造“镐和铲子”的机会是巨大的,通过为企业配备运行人工智能的工具和基础设施,许多价值数十亿美元的公司将诞生。

通过与 Auth0、HashiCorp、Imply、Twilio、Zapier 等定义类别的数据基础设施和开发者平台公司合作,我们知道在基础设施层内构建新颖的基础技术具有挑战性,通常需要专业知识和资源。因此,我们拥有广泛的网络和量身定制的资源,以支持 AI 基础设施创始人在顺风顺水时推动创新,包括:

  • 知名运营和技术顾问包括Adam Fitzgerald(HashiCorp 开发者关系主管)、Emilio Escobar(Datadog 首席信息安全官)、Mike Gozzo(Ada 首席产品和技术官)、Lance Co Ting Keh(前 GoogleX 人工智能主管)、Solmaz Shahalizadeh(前 Shopify 数据主管)、Talha Tariq(HashiCorp 首席信息官兼首席战略官)和Tony Rodoni(前 Salesforce 执行副总裁)等专家。
  • 与计算提供商和云供应商合作的独特访问和信用计划
  • 仅限受邀者参加的活动、简报会和与人工智能领域领先学者和商界领袖一起发表演讲的机会
  • 面向人工智能初创企业职能领导者的社区特定交流小组
  • 初创公司在组建团队时可以利用的 AI 专用人才网络

Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1