当 ChatGPT 首次发布时,人工智能领域的每个人都在谈论新一代人工智能助手。但在过去的一年里,这种兴奋转向了一个新的目标:智能体(AI agents)。
智能体在 2024 年 5 月份的谷歌年度 I/O 大会上占据了重要地位。当时,该公司推出了名为 Astra 的新智能体,用户可以使用音频和视频与之交互。
OpenAI 的新 GPT-4o 模型也被称为智能体。
(来源:AI 生成)
这里面有一些炒作的成分,但不仅只是炒作。科技公司正在投入巨额资金创建智能体,它们的研究工作可能会带来我们几十年来一直梦想拥有的、真正有用的人工智能。
包括山姆·奥特曼(Sam Altman)在内的许多专家表示,智能体是下一个行业重点。但它是什么?我们该如何使用它?
它们是如何定义的?
对智能体的研究还处于早期,该领域还没有对其进行明确的定义。
英伟达高级研究科学家、该公司智能体项目负责人 Jim Fan表示,它们本质上就是人工智能模型和算法,可以在动态世界中自主做出决策。
智能体的宏伟愿景是一个可以执行大量任务的系统,很像人类助手。
未来,它可以帮助你预订假期,但它也会记住你是否更喜欢豪华酒店,所以它只会建议四星级以上的酒店,然后去预订其中的一家。
它还将建议最适合你日程的航班,并根据你的喜好规划行程。它可以根据旅行计划和天气预报列出需要携带的物品清单。
智能体甚至可能会把你的行程发给你的朋友,并邀请他们一起去。
在工作中,它可以分析你的待办事项列表并完成合适的任务,例如发送会议邀请、备忘录或电子邮件。
智能体的愿景之一是多模态,这意味着它们可以同时处理语言、音频和视频。
例如,在谷歌的 Astra 演示中,用户可以用智能手机摄像头对准东西,并向智能体提问。智能体可以对文本、音频和视频输入做出响应。
英国伦敦大学学院人工智能中心主任大卫·巴贝尔(David Barber)表示,这些智能体还可以使企业和公共组织的流程更加顺畅。例如,智能体可能能够充当更复杂的客服机器人。
当前一代基于语言模型的助手只能生成下一个可能的单词并组成句子,但智能体将有能力自主处理自然语言命令,并在没有监督的情况下处理客服任务。
巴贝尔举例子说,智能体将能够分析客户的投诉邮件,然后知道如何检查客户的单号,访问客户关系管理和交付系统等数据库,以查看投诉是否成立,并根据公司的政策进行处理。
Fan 说,广义上讲有两类不同的智能体:软件智能体(software agents)和具身智能体(embodied agents)。
软件智能体在电脑或手机上运行并使用应用程序。他说:“这些智能体对办公室工作、发送邮件或完成相关的一系列工作非常有用。”
具身智能体是位于 3D 世界(如视频游戏)或机器人中的智能体。这类智能体理可以让人们与人工智能控制的非玩家控制角色一起行动,从而使电子游戏更具吸引力。
这类智能体还可以帮助构建更有用的机器人,帮助我们完成日常家务,如叠衣服和做饭。
Fan 所在的团队在流行的电脑游戏《我的世界》中构建了一个名为 MineDojo 的智能体。
利用从互联网上收集的大量数据,Fan 的智能体能够学习新的技能和任务,使其能够自由探索虚拟 3D 世界,并完成复杂的任务,如用栅栏围住骆驼或将熔岩铲入桶中。
电子游戏可以很好地模拟真实世界,因为它们需要智能体能够理解物理、推理和常识。
美国普林斯顿大学的研究人员在一篇尚未经过同行评审的新论文中表示,智能体往往具有三种不同的特征。
如果人工智能系统能够在复杂环境中无需指导地尝试困难的目标,那么它们就被认为是“智能体”。如果它们能在没有监督的情况下接受自然语言的指导并自主行动,那么也可以算是智能体。
最后,“智能体”一词也适用于能够使用网络搜索和编程等工具,或者能够进行规划的系统。
它们是新事物吗?
美国华盛顿大学计算机科学教授奇拉格·沙阿(Chirag Shah)表示,“智能体”一词已经存在多年,在不同的时间意味着不同的东西。
Fan 说,已经出现了两波智能体热潮。当前的浪潮要归功于语言模型的繁荣和 ChatGPT 等系统的兴起。
上一波是在 2016 年,谷歌 DeepMind 推出了 AlphaGo,这是一个强大的围棋人工智能系统。AlphaGo 能够做出决策并制定战略。这依赖于强化学习,这是一种奖励人工智能算法做出理想行为的技术。
谷歌 DeepMind 研究副总裁奥里奥尔·维尼亚尔斯(Oriol Vinyals)表示:“但这些智能体并不会完成其他任务。”
它们是为非常特定的任务而创建的,比如 AlphaGo 只会下围棋。新一代基于基础模型的人工智能使智能体更加普遍,因为它们可以从人类互动的世界中学习。
维尼亚尔斯说:“你会觉得这个模型是在与世界互动,然后给你更好的答案或更好的辅助等等。”
限制是什么?
仍有许多悬而未决的问题需要回答。人工智能初创公司 Imbue 的 CEO 兼创始人 Kanjun Qiu 致力于开发能够推理和编程的智能体,她将智能体的现状比作十多年前的自动驾驶汽车。
它们可以做一些事情,但它们不够可靠,而且仍然没有真正的自主性。
Qiu 说,例如,编程智能体可以生成代码,但有时会出错,而且它不知道如何测试其正在创建的代码。
因此,人类仍然需要积极参与这一过程。人工智能系统仍然无法完全实现推理,这是在复杂而模糊的人类世界中运行的关键一步。
Fan 说:“我们还远远没有一个可以为我们自动化所有这些家务的智能体。”其表示,目前的系统“会产生幻觉,而且它们也不总是严格遵循指令”。
另一个限制是,一段时间后,智能体会“忘记”它们所做的工作内容。人工智能系统受到其上下文窗口的限制,这意味着它们可以“思考”的数据量是有限的。
“ChatGPT 可以写代码,但不能很好地处理特别长的内容。但对于人类开发人员来说,我们要查阅的是整个 GitHub 代码库,其中有成千上万行的代码,人类是完全可以阅读它的。”Fan 说。
为了解决这个问题,谷歌提高了其模型处理数据的能力,这使得用户可以与它们进行更长的互动,从而更好地记住过去的互动。
该公司表示,它正在努力使其上下文窗口在未来变得无限大。
对于像机器人这样的具身智能体来说,还有更多的局限性。我们没有足够的训练数据来训练它们,研究人员才刚刚开始利用机器人基础模型的力量。
因此,在所有的炒作和兴奋中,我们必须记住的是,对智能体的研究仍处于早期阶段,我们可能需要数年时间才能充分体验它们的潜力。
现在就可以体验吗?
某种程度上是的。你很可能已经尝试过它们的早期原型,比如 OpenAI 的 ChatGPT 和 GPT-4。Qiu 说:“如果你正在与感觉很智能的软件交互,那它就是一种智能体。”
她说,目前我们拥有的最好的智能体是具有特定用例的系统,如编程助手、客服机器人或 Zapier 等工作流程自动化软件。但这些与能够完成复杂任务的通用智能体相去甚远。
Qiu 说:“今天我们有了这些计算机,它们真的很强大,但我们必须对它们进行微观管理。”
Qiu 说,OpenAI 的 ChatGPT 插件允许人们为网络浏览器创建人工智能助手,这是对智能体的一次尝试。但她说,这些系统仍然笨拙、不可靠,而且无法推理。
尽管如此,Qiu 认为,这些系统总有一天会改变我们与技术互动的方式,这是人们需要关注的趋势。
她说:“这并不是说,突然之间我们就有了通用人工智能。而是说,我的电脑比五年前能完成更多的事情。”
支持:Ren
排版:刘雅坤