文/王吉伟
就在国内还在大谈特谈AI Agent的时候,国外技术圈的风向变了。他们不再谈论AI Agent如何如何,而是转头开始交流Agentic AI。
虽然Agentic AI的概念可以追溯到上世纪IBM深蓝象棋系统(Deep Blue chess-playing system)出现的90年代,但让它再次进入公众视野的却是大语言模型的真正应用。尤其是AI Agent和Autonomous Agent的具体应用,让Autonomous AI再次被热议,包含AI Agent的工作流更是直接让Agentic AI成为AI领域更炙手的话题。
这个进程与变化,仍然要感谢OpenAI。2023年6月,OpenAI应用研究主管翁丽莲(Lilian Weng)撰写了《LLM Powered Autonomous Agents》一文,定义了目前很多开发者都在用的AI Agent主流技术框架。
文章地址:https://lilianweng.github.io/posts/2023-06-23-agent
2023年12月,OpenAI发表《Practices for Governing Agentic AI Systems》白皮书,介绍了Agenticness、Agentic AI Systems及Agents的区别,并正式为Agentic AI Systems下了定义。自此,Agentic AI 也正式进入了技术人的视野。
白皮书地址:https://openai.com/index/practices-for-governing-agentic-ai-systems/
真正让Agentic AI出圈的,还是人工智能领域领军人物、DeepLearning.AI与Landing AI创始人兼CEO吴恩达教授提出的Agentic Workflow。2024年3月26日,吴恩达教授在红杉资本(Sequoia Capital)的人工智能峰会(AI Ascent)上发表了一次主题为《Agentic Reasoning》的演讲,分享了当下AI Agent的4种主流设计模式。
在最近的2024年Snowflake峰会开发者日上,他又发表了题为《How Al Agentic workflows could drive more Al progress than even the next generation of foundation models》的演讲,进一步揭开了Agentic AI神秘面纱,并指它可能是比下一代基础模型更具潜力的AI 展方向。
视频地址:https://www.youtube.com/watch?v=q1XFm21I-VQ
两次演讲,让Agentic AI真正成为技术人所热衷探讨的话题。
AI Agent与Agentic AI 看起来非常相似,以至于看起来就像是将“AI Agent”的两个单词互换位置,一般人甚至看不出什么区别。但若细细品味,仅从单词性质名词与形容词的区别上,就能体会到Agent与Agentic些许不同。而作为人工智能的概念或者技术名词,两者所代表的意义区别还是非常明显的。
那么,到底什么是Agentic AI?它有哪些创新与特性?与AI Agent有什么区别?什么又是Agentic Workflow?有哪些特征?它的四种主流设计模式又是什么?本文,从Agentic AI到Agentic Workflow,王吉伟频道一次为大家说清楚。
(注:本文提到的相关论文、白皮书等资源已打包,后台发消息 agentic 获取。)
什么是Agentic AI?
在《Practices for Governing Agentic AI Systems》白皮书中,OpenAI认为(Agentic AI systems)智能体人工智能系统的特征是能够采取行动,这些行动在很长一段时间内持续地有助于实现目标,而不必事先明确规定其行为。
白皮书将系统的智能性(Agenticness,还可以翻译为主动性\代理性\能动性)程度定义为系统在有限的直接监督下适应性地实现复杂环境中的复杂目标的程度,并将这种智能性细分为目标复杂性、环境复杂性、适应性和独立执行四个组成部分。
▲ OpenAI定义的Agentic AI Systems,来源:《Practices for Governing Agentic AI Systems》
artificiality将Agentic AI Systems定义为能够以不同复杂性感知、推理和行动的系统,以将人类思维扩展到我们当前经验之外。该定义,更加强调了感知、推理和行动这三种能力。
基于以上两个Agentic AI Systems定义,结合业界对于Agentic AI的各种观点,不难归纳出Agentic AI这一概念所代表的深刻含义。
Agentic AI(智能体AI\代理式AI\能动AI),也称为自主AI(Autonomous AI),是指被设计用来通过理解目标、导航复杂环境,并在最少的人工干预下执行任务的系统,能够通过自然语言输入独立和主动地完成端到端任务。通常被设计为更具自主性和适应性,不仅能处理数据,还做出决策、从互动中学习,并采取积极的步骤来实现复杂目标。
Agentic AI可以设定目标,从互动中学习,并自主做出决策,转变业务运营和客户互动。功能与人类员工非常相似,可以掌握细微的环境,设定和追求目标,通过任务进行推理,并根据不断变化的条件调整他们的行动。
例如,虽然传统AI可能协助创建客户支持脚本或甚至根据客户输入生成个性化响应,但Agentic AI则更进一步。它可以自主处理客户查询,从开始到结束解决问题,甚至根据客户的回应跟进客户。Agentic AI可以模仿人类通常用来实现目标的推理、执行和纠正航向机制,体现了一种更精细的技术运作机制和管理方法。
事实上,Agentic AI背后的理念是赋予机器代理权,这意味着它们可以设定目标、规划,并采取行动来达到这些目标。Agentic AI能够预测需求、建议行动,并做出与设定目标一致的决策,其功能更像是一个合作伙伴而不仅仅是一个工具。因此,它代表了人工智能的根本转变,旨在以最少的人工干预自主理解和管理复杂的工作流程。
Agentic AI的创新与特性
这里,为了体现Agentic AI的创新与特性,需要将其与传统AI做一下对比。
传统 AI(Traditional AI),也称为狭义AI(Narrow AI),主要在特定算法和设置规则上运行。这些系统旨在执行定义明确的任务,例如对数据进行排序、识别照片中的人脸、翻译语言、执行预定义的流程或基于数据库回答常见问题解答。传统人工智能的范围仅限于其编程,缺乏偏离其给定指令或独立学习新经验的能力。
传统AI擅长于狭义的任务,需要在明确的指令下运行。它能在具有明确规则的结构化环境中茁壮成长,并在流程严格划分的场景中有效运作,但会受到其有限的范围、对人类指导的依赖以及难以适应不可预见变化的限制。
此外,传统AI主要是为了自动执行特定的重复性任务,在有限的范围内提高速度和效率,但它们在处理需要整体理解和战略判断的复杂工作流程方面存在不足。
Agentic AI则利用大型语言模型 (LLM)、可扩展的计算能力和庞大的数据集等进步,提供了一种更加动态和灵活的方法。它结合了强化学习(RL)和决策理论,可以从互动中学习并随时间优化。不仅能对情况做出反应,而且能积极地参与决策过程。
可以说,Agentic AI就是为了自主性而构建的,旨在驾驭复杂的现实世界场景,并能够随着情况的发展调整其策略。这标志着从AI作为需要人类输入的工具或专业系统,到作为能够独立行动和与现实世界互动的协作伙伴的深刻转变。
Agentic AI 的功能更像是人类员工,掌握自然语言提供的复杂上下文和指令,开始设定目标,通过子任务进行推理,并根据不断变化的条件调整决策和行动。
因此,Agentic AI的关键创新主要体现于以下几点:
Agentic AI的主要特性,也可以总结为:
现在,像CrewAI、Langraph及Autogen等开创性框架,正在为Agentic AI的发展铺平道路。开发人员可以在这些平台设计和部署AI Agent团队,每个Agent都有独特的技能、知识库和通信界面。通过协调协作,这些Agent团队可以自主导航和执行复杂的工作流程,适应动态条件和不断变化的需求。
扩展阅读:AI智能体构建智能未来,全球80+AI Agent构建平台大盘点
这些进步,使Agentic AI能够超越仅仅遵循指令来设定独立目标、制定战略和适应,从而为实现复杂目标提供动态方法。
Agentic AI与AI Agent的区别
虽然AI Agent这个词组与Agentic AI长的很像,基本就是“AI在后”与“AI在前”的区别,但两个概念还是有很大区别的。
对于Agent和Agentic这两个单词,吴恩达教授在文章中提到:与其以二元方式选择某个系统是否是Agent,不如将系统视为具有不同程度的Agent特性更有用。与名词“Agent”不同,形容词“Agentic”允许我们思考这类系统,并将它们全部纳入这一不断发展的领域中。
原文:Rather than having to choose whether or not something is an agent in a binary way, I thought, it would be more useful to think of systems as being agent-like to different degrees. Unlike the noun “agent,” the adjective “agentic” allows us to contemplate such systems and include all of them in this growing movement.
原文链接:
https://www.deeplearning.ai/the-batch/welcoming-diverse-approaches-keeps-machine-learning-strong
也就是说,名词“Agent”仅用于表明某个产品或项目是否为AI Agent是否具备了智能特性,而形容词“Agentic”则意味着AI产品或项目的Agentic特性有多强能否体现更强大主动性、自治性和适应性。前者仍在探讨Agent产品或项目的相关特性,后者则在探讨产品的智能程度,显然后者更有意义。
从AI Agent到Agentic AI,即使当前所探讨的内容仍是AI Agent相关的技术、产品或解决方案,但立足点已经截然不同,这是一个认知上的重大转变。如果说AI Agent仍然属于产品思维,Agentic AI已经上升到战略思维。Agentic AI进一步代表了一类AI技术、产品、方案、生态乃至战略的总体集合,必然也会像GenAI等词汇一样被更多的组织放到其战略报告之中。
从定义和概念而言,AI Agent是一种能够感知环境、进行决策和执行动作的智能实体。它们通常基于机器学习和人工智能技术,具备自主性和自适应性,在特定任务或领域中能够自主地进行学习和改进。其核心功能可以归纳为三个步骤的循环:感知、规划和行动。
Agentic AI是具有更高程度自主性的AI系统,它们能够主动思考、规划和执行任务,而不仅仅依赖于预设的指令。它强调的是系统可以具有不同程度的“能动性”(Agentic特性),而不仅仅局限于被动执行指令。
两者的主要区别,主要在于以下几点:
对于两者的区别,我们说了这么多。但当探索Agentic AI的时候,你会发现更多内容仍旧是AI Agent相关的,或者说是“Agent+工作流”相关的。吴恩达教授也提到,Agentic AI的实现关键在于“智能体工作流(Agentic Workflow)”,它通过循环迭代的方式逐步优化结果,更接近于人类解决问题的思维模式。
因此,如果说Agentic AI聚焦的是战略层面指向组织技术发展目标,AI Agent则正是在战术层面实现这个目标的主要方法。
既然涉及到了Agentic Workflow这一概念,这里也来聊一聊。
什么是Agentic Workflow?
自从吴恩达教授分享了Agentic workflow的四种设计方法之后,Agentic workflow变得越发炙手可热。虽然这个概念并不是全新的,但在大语言模型和AI Agent应用日益壮大的情况下,Agentic Workflow也正在变得炙手可热。
汇总各方人士的观点与看法之后,可以对Agentic Workflow做出以下解释。
Agentic Workflow可以翻译为智能体工作流\代理工作流\能动工作流,核心是一个智能体系统,其中多个AI Agent通过利用自然语言处理 (NLP) 和大型语言模型 (LLM) 协作完成任务。这些智能体能够自主感知、推理和行动,以追求特定目标,形成强大的集体智慧,可以打破孤岛,集成不同的数据源,并提供无缝的端到端自动化。
作为一个复杂的系统和迭代过程,Agentic Workflow旨在提高业务流程的效率和有效性。它使用AI Agent与业务设置无缝集成,部署在Agentic Workflow中的AI Agent能够高精度地协作和执行复杂任务。
Agentic workflow架构图 来源:codiste
从开发角度而言,Agentic Workflow是指一种迭代、交互式的AI开发方法,使用大型语言模型和AI Agent来执行任务,其中AI Agent能够参与更动态和自我反思的过程,这是一种更迭代和多步骤的方法。
从自动化角度来看,Agentic Workflow代表了传统自动化方法的重大转变。传统自动化方法通常依赖于严格的预定义脚本或人机交互流程,通过利用多个专业AI Agent协同工作的能力,Agentic系统可以动态导航和适应企业工作流程的复杂性,因此有望将各行各业的生产力和创新提升到新的水平。
简单来说,Agentic Workflow是一个复杂的迭代和多步骤过程,用于交互和指示大型语言模型,以更准确地完成复杂的任务。在此过程中,单个任务被划分为多个更易于管理的小任务,并在整个任务完成过程中留出改进空间。
此外,Agentic Workflow还涉及部署多个AI Agent来执行特定的角色和任务。这些Agent配备了特定的个性和属性,使他们能够高精度地协作和执行定义的任务。
Agentic Workflow的另一个关键亮点是使用先进的提示工程技术和框架。该过程包括思维链、计划和自我反思等技术,使AI Agent能够:
举个例子,如果你直接使用LLM写一篇关于Agentic AI的文章。在传统方法中,需要输入一个提示,指示LLM 撰写这个主题的文章。这就像要求某人从头到尾写文章,不审查研究来源、检查大纲并改善内容的语气和质量。
这种传统的零样本方法使用LLM,在撰写文章的过程中没有留下迭代、反馈和改进的余地,大大降低了输出的准确性和质量。
但在Agentic Workflow并不需要给出撰写文章的提示,仅需要提出目标要求,它就能将任务分解为更小的任务,一般会有如下的任务分解步骤:
在Agentic Workflow工作模式下,LLM被指示按照一个循序渐进的过程完成更大的任务,且每个步骤的输出充当下一个任务的输入。
这意味着,Agentic Workflow这种迭代和协作模型,将与LLM 的交互转换为一系列可管理、可改进的步骤,从而允许在整个任务完成过程中进行持续改进和调整。
Agentic Workflow的主要特征与三大支柱
通过以上解析和案例,我们可以总结Agentic Workflow的主要特征如下:
与传统工作流自动化相比,Agentic Workflow具有多种优势。它们可以处理更复杂的多步骤流程,这些流程需要上下文感知决策,并且可以适应新情况,而无需大量重新编程。此外,自然语言处理的使用允许人与系统之间更直观地交互,从而减少对专业技术知识的需求。
在Agentic Workflow中,AI Agent是一个自主驱动的动态问题解决器,用于处理复杂且不断发展的任务,从而提高工作效率。
AI Agents、提示工程技术(Prompt Engineering Techniques)和生成式AI网络(Generative AI Networks,GAIN) 是Agentic Workflow的三大支柱。它们在Agentic Workflow中的作用,简单介绍如下:
AI Agent:Agentic Workflow的核心是AI Agent,它们本质上是大型语言模型(LLMs)的复杂实例。
提示工程技术与框架:Agentic Workflow的一个关键方面是使用高级提示工程技术和框架。
生成式AI网络(GAINs):通过部署生成式AI网络(GAINs),Agentic Workflow得到显著增强,它们体现了多代理协作的原则。
三大支柱的详细内容,可以参考下面的思维导图。
▲ 点击看大图
除了三大支柱,Agentic Workflow的核心组成部分还包括AI增强、伦理考量、人工智能交互和适应性学习,各项解析如下图。
此外,关于Agentic Workflow的常见工作流程及可重用的LLM配置文件组件,大家可以参考论文:A Survey on LLM-Based Agents: Common Workflows and Reusable LLM-Profiled Components.
论文地址:
https://arxiv.org/abs/2406.05804
各种工作的业务流程从传统流程转向Agentic Workflow,标志着我们将能够通过AI实现更优越成果的转变。实验证明,即便是不太先进的LLMs,参与这些复杂的、多层次的工作流程时,也能产生显著的成果。对于这一点,大家将在下面对Agentic Workflow的四种设计模式的介绍中有更深的感触。
多说一句,Agentic Workflow也让国产大语言模型和各种开源大语言模型拥有了更多用武之地,这在当前的国际大环境下还是非常重要的。
当然,我们还应该认识到,在目前的技术前提下,这些增强的工作流程要求用户有足够的耐心。因为Agentic Workflow固有的迭代、协作过程也更加耗时,往往需要几分钟甚至几小时来完成某个任务。过长的任务执行时间,也是Agentic Workflow遇到的主要问题之一,更是被吐槽体验不够的重要因素。
但相对于它能提供的远超过传统方法的分析深度、创造力和解决问题的能力,在很多应用场景中大家仍然愿意尝试,这也预示着巨大的市场潜力。
Agentic Workflow的四种主流设计模式
在介绍Agentic Workflow之前,先考虑一个问题,为什么需要AI Agent/Agentic Workflow?
目前,对于ChatGPT、文心一言、Kimi等大语言模型的使用,大多数人仍然是用简单的语句直接提问(一部分原因在于不会写结构化提示词),比如:帮我写一篇关于Agentic AI的文章。这种提问方式,在技术领域叫作零样本提示。
零样本提示(zero-shot prompting)是指LLM模型在没有针对具体任务进行专门训练的情况下,仅依赖于提示词(prompt)和预训练中获得的广泛语言知识来执行任务的能力,它可以很好地检验大语言模型的能力。这种方法灵活性高、适用范围广,且无需为每个特定任务准备专门的训练数据。但由于缺乏特定任务的训练,其生成质量无法保证。
具体到用户与大语言模型的交互,如果用户让ChatGPT写一篇关于XX的论文,ChatGPT会一次性给出回复。在这个过程中,它只会执行“生成”这个任务。
这个过程,与真实世界完成工作任务的流程是不同的。比如写论文时,一般会先起草一个初稿,再进行评估、分析、修订,迭代出第二、第三个版本,直到满意为止。我们处理工作、学习等任务时都是这样,会将其分解为按步执行的流程并按照流程来操作,以保证工作的完成的质量。
▲ 零样本提示与Agentic Workflow的区别 来源:吴恩达教授红杉峰会分享
也就是说,想要让大语言模型更出色的完成我们的交给它的工作,最好也使用类似人类的分部执行的流程步骤。
AI Agent就是来做这个工作的,它能通过自然语言了解用户所输入零样本提示词的意图,并将这个用户给定的需求目标任务规划分解为多个流程步骤,将简单的提示词转化为更精细的机构化提示词,并可以调用联网、代码等各种工具插件去进一步执行并完成所分解的各种子任务。
显然,这样的工作方式已经无限接近于人类。
Zero-shot prompting模式和AI Agent模式的任务执行效果,非常明显。吴恩达教授团队分别以“Zero-shot prompting”模式和AI Agent模式使用GPT-3.5和GPT-4,得出了几个结论:
1、Zero-shot模式下,模型在没有具体任务示例的情况下,仅依赖于其预训练的知识来执行任务。这种情况下比拼的是模型的通用基础能力,所以GPT-4得表现好在意料之中。
2、添加了Agentic Workflow的AI Agent在任务执行中的表现显著提升,不论基座模型是GPT-3.5还是GPT-4。
3、即使基座模型是GPT-3.5,通过添加Agentic Workflow将其设计为AI Agent后,性能表现也超过了Zero-shot模式下的GPT-4。
吴恩达教授还总结和介绍了四种较为常见的设计模式,分别是反馈(Reflection)、工具使用(Tool Use)、规划(Planning)和多智能体协作(Multi-agent Collaboration)。
反馈(Reflection)设计模式是一种让AI模型通过自我反思和迭代改进来提高任务执行能力的方法。在这种模式中,模型不仅生成初始解决方案,还会通过多次反馈和修改,不断优化其输出。
工具使用(Tool Use)设计模式是一种让AI模型通过调用外部工具或库来增强任务执行能力的方法。在这种模式中,模型并不仅仅依赖于自身的知识和能力,而是利用各种外部资源来完成任务,从而提高效率和准确性。
规划(Planning)设计模式是一种通过提前计划和组织任务步骤来提高效率和准确性的方法。在这种模式中,模型将复杂任务分解为多个步骤,并依次执行每个步骤,以达到预期的目标。
多智能体协作(Multiagent Collaboration)设计模式是一种通过多个智能体之间的合作来提高任务执行效率和准确性的方法。在这种模式中,多个智能体分担任务,并通过相互交流和协作,共同完成复杂任务。
PS:以上标有 Andrew Ng的图片,都来自吴恩达教授红杉峰会分享。公众号后台发消息 agentic ,获取 吴恩达红杉美国AI峰会谈 Agentic Workflow 以及 4 种主流设计模式的PDF文件。
AI Agent/Agentic Workflow可以更好帮助用户与大语言模型交互,帮助用户更好的完成各种任务。这将极大地拓展AI的使用场景,有效地提高任务完成质量,因此对AI应用的落地至关重要。
在这个分享中,吴恩达教授将Agent参与的流程称作Agentic Workflow,而不是AI Agent workflow,显然后者更注重AI Agent参与的workflow而不是AI Agent本身。从这一点,也能看出AI Agent与 Agentic AI的简单区别。
对于AI Agent参与的业务流程自动化,RPA\超自动化、ERP、CRM、BI等技术厂商早已在现有技术生态下引入了AI Agent架构,且表现出的任务执行能力更强。对于这个选题,王吉伟频道会在另一篇文章中与大家交流。
Agentic AI的概念已经讲清楚,而后面要实现这个目标并使其繁荣,就要看各种AI Agent的构建方式以及各种融合AI Agent的Agentic Workflow解决方案了。
在Agentic Workflow的构建方面,吴恩达教授给出的四种主流设计模式,已经给于开发者及企业很大启发。
目前很多AI Agent构建平台已经支持这四种设计模式,企业及个人都已能在这些平台构建符合需求Agentic Workflow。还有很多开源项目也在进一步优化Agentic workflow的构建流程,对于广大组织的私有化部署都是极大的利好。
此外很多技术供应商也已在引入AI Agent的基础上进一步构建Agentic Workflow,能够让用户更简单快捷的应用各种智能工作流。
在Agentic Workflow构建上,王吉伟频道也会在后面写几篇文章与大家分享相关的体验感受。大家想在哪些方面进行交流,欢迎踊跃留言。
后记:握住Agentic AI的商业脉搏
当前AI应用有一个大趋势,几乎所有应用都在向AI Agent和RAG的方向发展与迁移。这意味着,如果所有的AI应用都走向AI Agent模式,未来的workflow都将变成Agentic Workflow。
从吴恩达教授的Zero-shot prompting与Agentic Workflow来看,任何加持了Agentic模式的大语言模型都能领先大模型本身很多,这意味着接下来组织与企业的业务流程效率将会翻倍提升。
在王吉伟频道看来,即使ChatGPT背后的大语言模型迭代到GPT-4以后的更高版本,Agentic AI也会是更高效的大语言模型使用方式。不然,OpenAI也不会发表本文开头所提到的白皮书,来详细阐述大语言模型、AI Agent与Agentic AI Systerm的关联与区别了。
通过各种系统与集成大语言模型,或者在大语言模型的基础上做工具与平台扩展,对于大语言模型的应用效率及体验会更高,已是被验证的事实。
拓展阅读:更多组织接入ChatGPT等生成式AI,生成式自动化或成企业运营新标配
从AI技术发展历史来看,智能体的理念要先于AI,且一直以来AI都是作为Agent的技术实现路径,大语言模型亦不例外。因此在机器学习和深度学习火爆以后,大家都在关注的是AlphaGo和AI换脸技术。现在大语言模型火了,人们关注更多的也是AI Agent、Agentic Workflow以及接下来的Agentic AI。
拓展阅读:AI Agent发展简史,从哲学思想启蒙到人工智能实体落地
当然,Agentic AI也不是玄之又玄的东西,只是把AI Agent以及Agentic Workflow在内的各种应用与生态归纳成了一类。但不可否认的是,它势必会在未来很长一段时间内成为各大组织与商业领域的口头禅,也会成为这一阶段AI的重要体现形式。
当下,全民皆谈智能体让AI Agent越发审美疲劳,国外更多则在谈Agentic AI。就连吴恩达教授也在文章中提到:当看到一篇谈论“Agentic”工作流程的文章时,更有可能阅读。
大家的眼球开始被Agentic AI吸引,是否还会足够关注AI Agent?这是否意味着AI Agent已然势微?对于这些问题,大家不要忘了前面我们的探讨:AI Agent是Agentic AI的实现方式,Agentic Workflow是Agentic AI的关键。
所以,从“道”的层面关注Agentic AI战略发展趋势,从术的层面关注AI Agent不断推陈出新的各种框架、技术与解决方案,你将会把握住整个Agentic AI乃至AGI时代的商业脉搏。
全文完
【王吉伟频道,关注AIGC与IoT,专注数字化转型、业务流程自动化与RPA,欢迎关注与交流。】