报告原文:https://blog.langchain.dev/langchain-state-of-ai-2023/
随着 ChatGPT 的爆红,各界对生成式 AI(GenAI)的关注和应用热情空前高涨。所有组织都在思考如何将这一新技术应用于自己的产品与服务。而 LangChain 作为 GenAI 基础设施的先行者,其用户行为数据能够客观反映出不同团队目前是如何构建和应用基于 LLM 的系统。
最近,LangChain 团队针对他们的云平台 LangSmith 上的用户统计进行了汇总分析,这使我们可以从多个维度深入了解 GenAI 应用的现状与趋势:用户都在构建什么类型的应用?采用了哪些关键组件和技术?测试与评估是如何进行的等等。这些真实的用户数据为我们提供了一个独特的视角,来审视和总结整个 GenAI 应用生态目前的发展现状。
本文将为大家解析这份报告的主要发现,让我们一起感受这股技术变革带来的影响。
从统计数据看,问答和检索类应用占比最大,分别有 25% 和 17%。这说明企业用户都在探索如何利用 LLM 来问答非结构化数据,以及如何进行大规模的相关文档检索。LangChain 在这两个方面提供了强大的组件支持,比如各种检索模块和策略。
LCEL 使用量在最近几个月快速增长,成为组合不同AI能力构建自定义链路的首选方式。LCEL 降低了学习曲线,使不熟悉开发的用户也可以快速上手,构建原型并进行迭代。这有助于 LangChain 获得更广泛的用户基础。
OpenAI 无疑是目前市场上的领头羊,而 Azure OpenAI 作为第二大提供商,反映出公司用户更看重大厂商的服务稳定性。在开源 LLM 领域,HuggingFace 是使用量最大的接口工具。此外,一些提供开源 LLM API 服务的创业公司如 Fireworks AI 也受到关注。
本地向量存储位居,这显示许多团队还处在初期探索阶段,更倾向于使用本地数据进行原型实验。在托管向量数据库中,Pinecone 是使用量最大的提供商。此外,数据库厂商扩展的向量存储模块也开始获得采用,例如 Postgres、Neo4j 等数据库的向量存储扩展。
OpenAI 模型使用量最高,这与其在 LLM 市场的主导地位一致。但 HuggingFace 等开源模型也有很多用户,可见开源模型的影响力逐渐提升。此外,一些提供开源向量化 API 的创业公司如 GPT4All 和 Ollama 也进入前十强。
大多数团队实现了自定义的检索策略,这显示出对灵活定制以获取更相关文本的需求。此外,LangChain 内置的 Self Query、Contextual Compression 等策略也非常常用。这些策略可以过滤杂质,返回更精确的上下文。
83% 的测试运行包含反馈,但每个运行平均使用 2.3 种反馈方法,这显示单一指标难以完全依赖,必须采用多种方式测试。其中,正确性测试占比最大,但判断正确性也比较复杂,近四成使用了自定义评估器,而不是依赖通用评估器。
在测试内容上,精准匹配只占很小比例,这意味着大多数情况下,判断一个响应的正确性需要非常复杂的逻辑,不可能简单地字符串匹配。因此测试工作的难点在于定义正确的评判标准。
综上,从 LangSmith 的用户数据看,企业 GenAI 应用还处在早期探索阶段,如何测试和评估仍非常具有挑战性。LangChain 在支持和加速实际应用开发方面发挥着重要作用。我也会持续跟进这一领域,并给您带来最新分享。