多模态技术，释放垂直AI软件潜力的关键

作者：乌鸦智能说发布时间：2024-10-21

不久前，Bessemer提出了一个很有价值的观点：

垂直AI软件将成为未来。

说起Bessemer，熟悉SaaS行业的人可能并不陌生。它是美国SaaS领域最专业的投资机构之一，在过去10年投资了200多家SaaS企业。

为了更好讲清楚垂直AI软件的价值，Bessemer发布了垂直AI路线图，总共四个部分。本文是Bessemer的垂直AI路线图的第二篇文章。在这篇文章中，Bessemer会分享其对以下问题的思考：

多模态的垂直AI应用的落地究竟有哪些影响？现在基于多模态技术的垂直AI应用又有着哪些不错的落地案例？

01 多模态技术正在改变垂直AI应用‍‍

在过去12个月中，全球出现了许多新模型，它们在理解语境、减少幻觉以及整体推理能力方面进步很大。尤其在语音识别、图像处理和语音生成等方面，AI的能力正在逐渐接近人类。这为AI解锁了很多新的应用场景。

语音功能

在对话语音领域，模型发展取得了快速进展：语音转文本模型（自动语音识别）和文本转语音模型（生成语音）。

目前，市场有数十家公司提供基于这些模型的语音服务，这推动了大量新的语音AI应用程序的出现。

这些应用程序大都依赖于所谓的“级联架构”，即先将语音转录为文本，然后将该文本输入到LLM中以生成响应，最后将文本输出反馈到生成语音模型中以产生音频响应。直到最近，这一直是构建对话语音应用程序的最佳方式。然而，这种方法有一些缺点，比如它会有一定的延迟，同时失去用户对话中表达的情感。

而现在，新一代语音原生模型已经发布了，包括OpenAI的Realtime API （它支持通过GPT-4o进行语音对语音交互），以及Kyutai的Moshi等多个开源项目。

与之前的模型相比，语音原生模型的延迟明显降低（<500毫秒）。它们还可以捕捉更多来自用户的语境（即语气、情绪、情感等），并生成反映该语境的响应，使交流感觉更自然，并更有可能满足用户的需求。

在未来几年内，随着越来越多的对话式语音应用基于这些全新改进的模型构建，我们预计对话式语音应用的速度和质量将大幅提升。

语音应用案例

现在语音转录的应用已经非常成熟了，端到端对话语音代理也取得了显著的早期进展，我们认为这是语音AI解决方案的未来方向。接下来，我们就来看看4个AI语音的应用案例。

1）转录功能让用户有更多时间完成工作流程中的后续步骤 ：

Bessemer投资组合公司Abridge率先推出了一款一流的医疗转录应用程序，该应用程序可以根据临床对话生成医疗记录，并确定适当的后续行动，包括购买处方药、专家预约等，医生可以把更多注意力转移到患者护理上。

另一个很好的例子是Rillavoice，这家公司将人工智能引入了家庭服务垂直领域。Rillavoice的转录应用程序记录销售人员和客户之间的对话，用于培训目的，这样销售经理仍然可以提供有价值的指导反馈，而无需进行非常耗时的面对面“陪同”。

2）用AI来承接销售线索：

到目前为止，我们看到的端到端语音代理最引人注目的用例之一是入站销售。在很多特定的垂直场景（如家庭服务企业或汽车经销商）里，语音代理可以在下班后或其他销售代表忙碌时接听客户电话，从而确保企业不会错过有价值的潜在客户。这些功能比之前的语音机器人更智能和高效，无需销售的代表的参与。

3）AI客服提升客户体验 ：

AI客服一直是应用比较多的场景。但许多用户发现，早期的交互式语音应答(IVR)技术体验并不好。事实证明，现代语音代理更有效。

因为传统的IVR产品只能理解客户对特定措辞的回应意图，但现代语音代理不同，无论客户如何提问或提出请求，现代语音代理都能提供正确的答案。这样让客服人员更有时间对应付复杂的客户问题。

4）自动拨打外拨电话以增加漏斗顶端：

现在已经出现了多种解决方案来自动拨打销售和招聘团队的外拨电话。通常，语音代理使用客户陈述的标准来识别最有潜力的销售线索或候选人，对线索进行首次呼叫，然后将他们引导到与销售人员或招聘人员的下一次会议。

让人工智能接管外拨工作流程可以显著增加可以联系的线索数量，从而增加公司的漏斗顶端。随着时间的流逝，销售人员和招聘人员有更好的机会获得最有潜力的线索。

唯一需要注意的事，有必要出台相应的法规，规定AI只能向潜在客户拨打电话，以避免AI销售的滥用。

在所有语音用例中，我们预计低延迟和理解用户的情绪和情感将成为一件很重要的事情。此外，由于应用场景的差异，AI语音解决方案在其他维度上也略有不同，例如实时协调跨多个底层模型的对话以优化成本和性能；支持全渠道通信、多种语言和实时翻译。

在视觉方面，我们已经看到了GPT-4 with vision (GPT-4V) 等模型的发展，这些模型可以解释图像并回答有关图像的问题，以及处理原始图像和视频的多模态模型。比如，谷歌的多模态模型Gemini 1.5 Pro已经可以理解图像和视频中的输入。

我们预计，这些和类似的模型将继续提高性能并降低成本——这对应用程序构建者来说是个好消息。

视觉和视频的用例

垂直应用中视觉的应用案例通常分为以下四类：数据提取、视觉检查、设计和视频分析。虽然数据提取是迄今为止视觉模型最成熟的用例，但我们在其他领域也看到了新的应用进展：

1）从图片、PDF或其他非结构化文档的图像中提取数据：

分析和处理当前的非结构化数据，AI可以减轻人类繁琐的数据输入任务程。例如，Raft针对货运代理行业的平台结合使用计算机视觉和LLM从PDF发票中提取关键信息，填充其客户的企业资源规划平台 (ERP) ，并自动执行发票核对和准备海关申报单等下游任务。

2）提升目前人工检查的效率 ：

许多公司已经使用AI来帮助简化人工检查流程并更快地提供结果。比如，人工智能建筑平台xBuild为住宅建筑和修复项目生成工作范围包，然后与保险公司合作获得报销批准。xBuild使用受损屋顶的照片和房屋蓝图来生成报告，概述根据当地建筑规范将屋顶恢复到正常状态所需的修复范围。其他应用程序已使用人工智能和计算机视觉来自动化施工图中的质量保证审查过程，帮助尽早发现错误，以防止后期施工过程中出现代价高昂的项目变更。

3）生成2D和3D设计 ：

为建筑、工程和施工 (AEC) 行业服务的AI平台数量急剧增加。一些公司正在使用AI进行可行性评估，将拟建场地（建筑物、停车场等）的视觉描述与相关供应成本相结合，根据后者的成本限制调整前者，反之亦然。

Snaptrude等其他解决方案可以创建建筑物的详细3D设计图像，接管通常由结构工程师完成的重复性工作，让他们有时间专注于更高级别的设计工作。详细产品和基础设施设计的自动化不仅可以节省客户宝贵的工程时间，还可以加强销售提案并提高项目成功率。

4）视频分析 ：

生成和理解视频的模型是视觉模型中最不成熟的，但它们正在迅速进步。

在对象跟踪、分类甚至视频内容的自然语言搜索方面，视频理解模型已经变得相当强大。这些模型甚至有些已经完成商业化落地，比如用AI监控视频源以发现制造或工业环境中出现的安全违规行为。

但考虑到视频模型的进步的速度，未来几年我们将看到更多令人印象深刻的AI应用，并扩展到更多的用例。尤其在机器人领域，视频理解是机器人感知的关键组成部分。

在所有视觉用例中，创始人都应避免将复杂性误认为价值。虽然AI解决方案总被认为应该应用在自动化特别复杂的工作流程中，但归根到底，用户价值还是看现有场景的工作流程适不适合自动化。

如果设计自动化解决方案需要与难以替代的核心系统（如Revit）进行繁琐的集成，并且初始投资回报率较低，那么无论解决方案多么强大，都很难推动销售和采用。早期公司应该从技术复杂程度较低、范围较窄的产品开始，然后再从那里延伸。当然，最佳路径会因行业和用例而异，但要牢记权衡利弊。

02 人工智能代理的前景

虽然早期的人工智能代理多少有些炒作的意味，但现在人工智能代理开始有一些真正的落地进展。随着OpenAI o1模型的推出，代理能够处理更多复杂的推理任务。

如今，代理在涉及重复任务和通信的文本、语音和视觉工作流中发挥着重要作用。但在未来一年，我们预计基于较新的推理模型构建的应用程序将会出现，并发挥AI代理的真正潜力：自主处理复杂的工作流。

1）销售和营销 ：

许多公司都推出了AI代理，可以为销售团队寻找和联系潜在客户。这些代理的优点在于，它们能够进行大量研究数据，来识别高质量的潜在客户（通过对目标公司、其员工和相关行业新闻进行详细的网络搜索），然后使用这些研究结果来撰写相关且高度个性化的电子邮件。由于代理可以有效地执行工作中的研究和推广部分，同时保持相对较高的质量，因此它会让销售人员将自己时间更多投入到跟踪热门销售线索。

2）谈判 ：

AI代理在自动完成多方谈判方面展示了不错的前景。

Pactum等公司已经开发出能够就供应链案例协商法律和商业条款的人工智能代理。Pactum的代理可以与供应商进行谈判以优化交易条款。我们也看到其他垂直AI公司在销售和促销领域采取了类似的方法。在这里，代理根据既定标准与买家和供应商进行谈判，例如批量购买的折扣或快速付款计划。

3）调查 ：

企业网络安全团队经常被大量安全警报压得喘不过气来，但现在有AI代理可以协助完成警报调查的初始阶段。

这包括：从多个不同的系统收集有关事件的信息，研究可能涉及的恶意行为，总结事件并评估其严重程度。虽然大多数团队倾向于使用代理来处理风险较低的工作流程，但很明显，随着时间的推移，更复杂的代理可以处理越来越多需要信息收集和综合的工作流程。

我们相信，与不需要这些解决方案的解决方案相比，处理需要跨多种模式进行更复杂推理的任务和工作流程的代理将更有价值。

特别是，我们看到，通过巧妙的架构决策以及将正确的模型、反馈回路等拼接在一起以提供一致的结果，可以提高代理工作流程的性能。代理性能并不完全取决于问题中数据和计算的规模，因此对于早期创业公司来说，这是一个更具吸引力的机会。在所有情况下，鉴于底层模型的快速发展，在构建技术护城河和确保灵活性之间取得适当的平衡将是关键。

总的来说，越来越多垂直AI的创始人开始研究利用AI多模态能力，来解决更广泛的实际任务。与文本一样，语音和视觉的底层模型将日益商品化，使公司在强大的基础模型之上构建应用程序更具可持续性。我们相信，这波垂直AI应用不仅会改变它们所服务的行业和垂直格局，也将从彻底改变我们工作和与世界互动的方式。

本文来自微信公众号“乌鸦智能说”，作者：智能乌鸦，36氪经授权发布。