Agent被看作是通往通用人工智能(AGI)的必经之路。那么不同于传统的人工智能,Agent的独特之处在于哪里?怎么理解Agent这一概念?本文作者对其关键组成、特点和局限性等方面做了分析,一起来看一下。
上文介绍了AI大模型连接外部世界的重大意义,今天我们来了解一下Agent(智能体)。
Agent可以更好地理解和应对复杂多变的现实世界场景,具备更强的智能和自适应能力,因此被认为是通往通用人工智能(AGI)的必经之路。
一、基本概念
Agent(智能体)是一种能够感知环境、进行决策和执行动作的智能实体。不同于传统的人工智能,Agent 具备通过主动思考、调用工具去逐步完成给定目标的能力。
我们知道,大模型与人类之间的交互是基于prompt实现的,用户prompt是否清晰明确会影响大模型回答的效果,在此过程中,人类主动提问,而大模型是“被动”回答。而Agent的工作仅需给定一个目标,它就能够针对目标独立思考并做出行动。
从大模型的角度来看,Agent其实就是基于大模型的语义理解和推理能力,让大模型拥有解决复杂问题时的任务规划能力,并调用外部工具来执行各种任务,利用向量数据库保留“记忆”的一个智能体。
Agent = 大模型 + 任务规划(Planning) + 使用外部工具执行任务(Tools&Action) + 记忆(Memory)
把Agent比作一个人的话,他应该有大脑(语义理解、存储记忆、推理规划、专业知识)、五官(接收文本、视觉输入、听觉输入等)、四肢(使用工具完成各种具体任务)等主要部件。
其实我们在上文中举的例子,就是Agent的极简版工作模式:
我们还是参照该示例,从大模型的角度来看一下Agent的组成。
二、Agent的关键组成部分
Agent最核心的组成部分就是 任务规划(Planning):
Agent还要拥有长短期记忆(Memory):
工具&执行(Tools&Action):
Agent会根据拆分好的子任务,调用外部提供好的专业API解决专业问题,完成一个个具体的子任务,并把处理结果返回给大模型。详情可参考上文《AI大模型如何连接外部世界:深入解析GPTs、Assistant API和Function Calling》。
三、Agent vs 大模型 vs 传统软件
传统软件的特点:
大模型的特点:
Agent的特点:
总之,Agent目前会损失一定的可靠性,换来可观的创造力,这种情况大概率会持续较长时间,但是一旦取得突破性进展,可能会彻底颠覆现有的交互方式,从GUI进入到自然语言交互的时代,到时候就可以真正用上那句“所有系统都值得用AI重做一遍”了。
四、局限性
虽然Agent让我们看到了AGI的曙光,但目前它依然有很大的局限性:
本文主要介绍了AI Agent的基本概念,Agent让我们看到通用人工智能(AGI)的曙光。
虽然目前依然有很多局限性,导致Agent无法大面积应用,但随着技术底座快速升级,Agent的规划能力会越来越强,成本会快速降低,很可能会彻底颠覆现有的交互方式,并最终实现AGI。
本文由 @AI小当家 原创发布于人人都是产品经理,未经许可,禁止转载
题图来自 Unsplash,基于 CC0 协议