2024年,AI 领域中最炙手可热的话题无疑是Agent。
“大模型很酷,但我能用它做什么?“这是2023年的年度AI应用之问。而到了2024年,智能体(Agent)已成为这个问题最有希望的解药。
智能体能够通过复杂流程和工具使用,使大模型能处理更复杂、更定制化的任务,最终产生具有自主性、感知能力、决策能力和行动能力的软件实体或物理实体。吴恩达、Jim Fan等圈内大佬纷纷投身其中,证明智能体的有效性。
吴恩达教授今年3月在博客中提出,在 HumanEval 数据集中使用 GPT-3.5(Zero-shot)的测试正确率为 48.1%。 GPT-4(Zero-shot)为 67.0%。而通过与 Agent workflow 配合,GPT-3.5 实现了 95.1%的正确率。
(图注:吴恩达进行的实验,在智能体技术下,GPT 3.5性能远超原始的GPT4)
因此这一年来,从大公司到民间高手都在搭建智能体。大到微软的Copilit,小到无厘头的AI算命,Langchain、Coze、Dify这些搭建智能体框架的工具也雨后春笋般开枝散叶,热度持续上涨。
(图注:INSIGHT整理的智能体和AI自动化流程相关公司)
OpenAI 的前科学家Andrew Karpathy曾说,普通人、创业者和极客在构建AI 智能体方面,相比OpenAI这样的公司甚至更有优势。
一个以AI智能体工作流为依托的新产品经理时代要来了吗?不一定,因为AI可能比人类更会搭建智能体。
8月19日,不列颠哥伦比亚大学的三位研究人员发表了一篇名叫《自动化设计智能体系统》的论文。在这篇论文里,他设计了一个让AI自己发现并搭建智能体,还能自己迭代的系统。
回想一下OpenAI对智能体的经典定义,智能体就是一个能够存储知识,能够进行计划,并且应用工具的产品。
而我们在用工作流构建智能体的时候,也是利用已有的知识(对智能体形式的知识),自己进行计划(搭建流程)并利用工具(接入API)最终去执行产出,并没有超越智能体自己的能力范围。
那为什么不搭建一个能自动发现和设计智能体的智能体呢?
论文作者就按照这个思路,把设计者称为元智能体,他让它去设计新的智能体。把设计好的智能体加到数据库里作为资料,不停迭代出新的、更强版本的智能体。
这整一套方法,他们称之为ADAS(Automated Design of 智能体ic Systems)。
那么,这一系统具体如何落地呢?
ADAS系统中生成新智能体的过程可以被分为三个部分:
第一部分建立搜索空间,可以理解为通过一些基础工具和规则,它可以设计出潜在的新智能体。
第二部分是运行搜索算法,它规定了元智能体怎么利用搜索空间,取用其中的元素去具体搭建新的智能体。
最后一部分是运行评估函数,它会根据性能等目标对搭建出来的智能体进行评估。
研究人员在论文中分步解释了如何构建以上三个核心部分。
首先得确定建构搜索空间的基础元素,研究人员认为最好的方法是代码。
这是因为代码具有图灵完备性,能表达所有可能性。所以,理论上元智能体能够发现任何可能的构建模块(如提示、工具使用、控制流程)以及以任何方式组合这些构建模块的智能体系统。
更重要的是,Langchain这样用来构建智能体的网站中已存在的各种工作流都已被代码化。因此相关数据手到擒来,不用再转换。而工具调用,如RAG(retrieval augmented generation检索增强生成)之类的能力组件也已经有了非常充分的代码基础。
采用代码去构建搜索空间,也意味着ADAS生成的智能体可以直接运行,用来纠错、跑分,无需人工再干预。
定义好了搜索空间,研究人员就开始设计搜索算法,即让元智能体去探索可能去完成任务的方法。这一过程基本上都是依靠提示词工程完成的。
首先是先给它一系列系统提示词。
然后,把基础Prompt提到的资料给到元智能体,包括
1.任务的基本描述。
2. 最基本的框架代码,比如格式化提示、封装等操作名称,还有调用其他基础模型(FM)、API的能力。
(图注:一部分框架代码)
3.任务输入输出的格式和范例。
4.原来迭代中生成的一些智能体形成的范例库,包括其基线测试结果。
(图注:一个智能体库里的范例)
根据这些基础提示,ADAS就可以开始运作,生成一个去解决特定问题的智能体。
在这个过程中,元智能体会进行两轮反思保证生成的智能体具有新颖性和正确性。它会检查新生成的代码框架是否有错误,相对于智能体范例库里的过往结果是否有足够的创新。
元智能体还需要基于其对实用性能能力的"理解"对生成的智能体进行初步评估,判断它是不是比之前的智能体性能更好。
当这些条件中有一些不满足时,元智能体就得对生成的智能体或者修改或者干脆回炉重造。
(图注:第一轮反思的Prompt)
两轮反思和修改过后,元智能体会把觉得又新又好的新生成的智能体送给第三步的评估系统。
评估系统会根据基线测试对这个智能体的能力打一个客观分数,然后把它返回给到智能体范例库。
元智能体会再根据之前的评分结果和范例库里的过往范例,继续进行下一次迭代优化,以达到更高的任务性能分数。
一整条全自动化的链条就在这一过程中诞生了。而要生成一个效果绝佳的智能体,可能需要进行两位数以上次数的迭代。
通过ADAS方法自动化流程得到的智能体能有多复杂?下图就是经过14次迭代后生成的一个智能体框架。
这个智能体的结构中有五个思维链给出初步答案。三个专家专家模型和一个模仿人类给出评价的模型对这些答案给出反馈后,这些答案会在优化流程阶段进行三次修改加强。最后经评估筛选出来三个结果,合并给出最终答案。
这种的复杂度的设计水平,如果是人类进行操作,估计得花一周时间。这还只是写提示词和设计架构的时间,更别提测试和横向比较了。
当然,这也是元智能体在设计中不断迭代的结果。
在迭代过程中,它生成智能体的能力也随着迭代次数快速增强。在第三次迭代的时候,元智能体就自己学会了多思维链策略,在第四次迭代的时候就学会了利用动态记忆去优化回答。到了第14次,它生成的智能体就达到了上面提到的复杂度。
最终,其最优解法的能力相较于最初的单纯大语言模型能提升超过250%,比起效果最好的手挫智能体COT-SC(多思维链回答)方法提升达到75%。
不光是ARC,ADAS模式下生成智能体在各个方面比起当前最强的所有基准手搓智能体,如COT、LLM Debate、Self-Refine都显著得更强大。而且越是处理复杂任务和跨领域应用时,ADAS生成的智能体越强。
而且这些生成的智能体本身便具有一定的迁移能力,比如能解决科学问题的智能体同样可以在数学方面取得很好的成绩。因此,一个最优框架很可能可以解决很多领域的相关问题。
虽然手搓智能体的时代即将结束了,但智能体范式的发现时代也许还将持续。在整体的测试中,ADAS并没有发现当下智能体建构范式以外的新的建构方法,更多的是重组和使用这些方法。
然而,对于一般的AI Agent开发者而言,这已经足够替代他们的工作了。
不过ADAS的流行可能还需要迈过一个坎,那就是成本问题。
据研究人员透露,在 ARC 上进行一次搜索和评估的OpenAI API成本约为 500 美元,而在推理和问题解决领域内的一次运行成本大约为 300 美元。也就是每次迭代大概需要20美元。对比如此高昂的成本,现阶段人力仍然有一定优势。
但研究人员也表示,因为研究得早,他们用的是“gpt-3.5-turbo-0125”模型。而最新的 GPT-4 模型“gpt-4o-mini”价格只有不到“gpt-3.5-turbo-0125”的三分之一,且性能更佳。而且从实验看,以GPT 3.5能力迭代出来的智能体在一定数量的迭代后就进入性能瓶颈了,十四次后的迭代都是浪费。因此,拥有更好评估和资源管理的设计,也能大幅降低成本。
显然,人力的价格优势也维持不了多久了。
这一自动化的技术为何如此重要?
在移动互联网时代,面向各种赛道的各种App百花齐放,共同堆叠出了科技繁荣时代。但因为当时的新工具需要学习,移动App的开发也经历了较长的渗透阶段,最终才容纳进了足够的开发者。
在更早的时代,这个速度更慢。按照Geoffrey Moore在90年根据个人电脑的经验提出的"跨越鸿沟"理论,在技术出现初期几年,只有大概13.5%的erarly adopter会用到这一技术,这还不是开发,而是使用。
所以开发者的短缺,可能是技术推广的一个重要瓶颈。
当然,智能体搭建的开发渗透速度可能要快很多。因为它比起过往的软件开发要简单得多。比如前一阵火爆的Wordware,能让一般用户用自然语言就能完成智能体的建构,更降低了门槛。
但思维链、多步循环等设计仍然非常复杂,过程中需要用到的工具也越来越多。因此,能够真正投身于智能体开发并且用好这个工具的人并不多。
扎克伯格曾在和黄仁勋的对谈中称,就算大模型技术不再发展了,光是吃透智能体的潜力就得花五年。
因此,相比于技术,开发者可能更是智能体还没爆发的核心瓶颈。现在能做这事的人还是太少。
但是,Agent却很多。
如果这一自动生成调优Agent的技术被更多商业公司采纳优化,早期技术人员的瓶颈自然不复存在了。智能体对各个领域的覆盖能力和能力深度的探索速度都会大幅提高。
也许就在明年,人类史上的第一个Killer AI App,作者就是个AI。
本文来自微信公众号“腾讯科技”,作者:郝博阳,36氪经授权发布。