清华团队领衔打造，首个AI agent系统性基准测试问世

作者：学术头条发布时间：2023-08-08

AI 智能体，或自主智能代理，不仅是诸如贾维斯等科幻电影中的人类超级助手，也一直是现实世界中 AI 领域的研究热点。尤其是以 GPT-4 为代表的 AI 大模型的出现，将 AI 智能体的概念推向了科技的最前沿。

在此前爆火的斯坦福“虚拟小镇”中，25 个 AI 智能体在虚拟小镇自由生长，举办了情人节派对；英伟达等提出的具身代理模型 Voyager，也在《我的世界》中学会各种生存技能，闯出了自己的一片天；此外，能够自主完成任务的 AutoGPT、BabyAGI 和 AgentGPT 等，也同样引发了公众的广泛兴趣和热烈讨论。

甚至，前特斯拉 AI 总监、回归 OpenAI 的技术大牛 Andrej Karpathy 在一次开发者活动上透露，每当有新的 AI 智能体论文出现时，OpenAI 内部就会非常感兴趣，并认真地进行讨论。

尽管当前 AI 智能体研究异常火热，但目前 AI 行业缺乏一个系统化和标准化的基准来评估 LLMs 作为代理的智能水平。

为此，来自清华大学、俄亥俄州立大学、加州大学伯克利分校的研究团队便提出了首个系统性的基准测试——AgentBench，用来评估 LLMs 作为智能体在各种真实世界挑战和 8 个不同环境中的表现（如推理和决策能力）。

研究结果显示，顶级商业语言模型（如 GPT-4）在复杂环境中表现出色，与开源模型之间存在显著优势。为此，研究团队建议，有必要进一步努力提高开源 LLMs 的学习能力。

相关研究论文以“AgentBench: Evaluating LLMs as Agents”为题，已发表在预印本网站 arXiv 上。另外，相关数据集、环境和集成评估包也已发布在 GitHub 上。

01 首个系统性基准测试

在以往的研究和实践中，基于文本的游戏环境已被用于语言代理的评估。然而，它们往往由于封闭的离散行动空间而受到限制，且其重点主要集中在模型的常识基础能力上。

最近，一些关于具身代理的尝试采用了基于游戏、图形用户界面（GUI）和室内场景的复杂多模态模拟器。然而，尽管这些模拟器很复杂，不能准确地反映出 LLMs 在实际用例中的使用情况，且其多模态性质也给纯文本 LLMs 的快速评估带来了障碍。

此外，大多数代理的基准测试都集中在单一环境中，这限制了它们在不同应用场景中全面概述 LLMs 的能力。

在此次工作中，研究团队在操作系统（OS）、数据库（DB）、知识图谱（KG）、卡牌对战（DCG）、情景猜谜（LTP）、家居（Alfworld）、网络购物（WebShop）和网页浏览（Mind2Web）8 种不同的环境任务中，使用 AgentBench 对 25 个不同的语言模型（包括基于 API 的模型和开源模型）进行了全面评估。

测试结果显示，像 GPT-4 这样的顶尖模型能够处理各种各样的现实世界任务，而大多数开源 LLMs 在 AgentBench 中的表现远远不及基于 API 的 LLMs；甚至，最有能力的开源模型 openchat-13b-v3.2 也与 gpt-3.5-turbo 之间存在显著的性能差距。

尽管通过广泛的对齐训练，LLMs 不仅可以掌握传统的 NLP 任务，如问题回答、自然语言推理和文本摘要，而且还能展示出理解人类意图和执行指令的能力，但它们在 AgentBench 任务上（如行动的有效性、长上下文、多轮一致性以及代码训练）的表现却相对落后。

研究团队表示，未来还需要更多的工作来进行更加严格、系统的评估，并提供强大的开源工具来促进此类评估，如不断完善 AgentBench，使其更加全面和包容，以及建立一个更为系统的 LLMs 评估体系等。

02 “自主”AI代理竞赛正在席卷硅谷

AI 大模型的不断进化催生了新型助手的诞生。当前，“自主”AI 代理的竞争激发了硅谷的热潮。不仅吸引了个人开发者，还有巨头公司如微软和谷歌母公司 Alphabet，以及众多初创企业也踊跃参与其中。

以初创公司 Inflection AI 为例，该公司的联合创始人 Reid Hoffman 和 Mustafa Suleyman 在播客中表示，他们正在开发一款个人助手，能够充当导师，也能够应对类似于安排航班积分和酒店等任务这样的事务。

MultiOn 公司开发者 Div Garg 表示，其目标是将其发展为个人的 AI 朋友，类似于虚拟助手“贾维斯”。他们希望这个代理能够与个人的服务进行连接。

Generally Intelligent CEO Kanjun Qiu 表示：“对人类来说很容易的事情，对计算机来说仍然非常困难，如为老板安排一组重要客户的会议。这需要非常复杂的推理能力，涉及到获取每个人的偏好，解决冲突，同时还需要在与客户合作时保持细致入微。”

Qiu 和其他四位代理开发者预测，第一批能够可靠地执行多步骤任务并具备一定自主能力的系统将在一年内上市，重点关注编码和营销等垂直领域。

微软 CEO Satya Nadella 曾在接受《金融时报》采访时表示：“无论是微软自家的 Cortana，还是亚马逊的 Alexa 、谷歌助手、苹果的 Siri，都还不够智能，未能达到最初的预期。”

抛开存在的担忧不谈，AI 代理已经展现出了巨大潜力和市场。虽然我们在探索和应用过程中可能会遇到一些挑战，但正如历史上许多创新一样，随着时间的推移，我们有望在不断优化和完善中见证这些 AI 代理为人类社会带来积极而深远的影响。

参考链接：

https://www.reuters.com/technology/race-towards-autonomous-ai-agents-grips-silicon-valley-2023-07-17/

本文来自微信公众号“学术头条”（ID：SciTouTiao），作者：学术头条，36氪经授权发布。

相关资讯

数字能效 2023-01-07

有三AICV系统性专栏课系列学习

度学习计算机视觉核心算法与实践心风R才总开图像分类、图像分割、目标检测、生成GAH)有三AI-CV初阶-基础算法组(2024年深度学习之图像分类一理论与实践深度学习之目标检测一理论与实践深度学习之图像分割一理论与实践深度学习之视觉Transformer一理论与实践（拼课❤ wwit1024）深度学习之模型压缩优化一理论与实践深度学习之模型部署一移动端与服务端深度学习之视频分类一理论与实践深度学习之图像与视频生成GAH一理论与实践深度学习之图像增强GA一理论与实践深度学习之人脸属性编辑一

深度学习

应怜和淇儿10和72 2024-08-04

用“冰山思维”系统性应对生成式AI安全挑战

科技的发展常常以浪潮的形式出现。信息技术领域，“后浪”迭起，“C位”流转，但即便那些在时代的风口处在“浪潮之巅”的，也无法绕过永恒的课题：安全。生成式AI（AIGC）近年热度非常，在启发“千行百业”的企业进行新一轮业务创新的同时，也在安全层面带来了全新的挑战。并且，由于生成式 AI依赖大量数据和模型、流程环节多维、细节丰富，让这些安全挑战复杂多样且变化多端。将安全合规“武装到牙齿”，伴随生成式AI的高速发展，变得更为紧要。在“安全为先”的理念下，亚马逊云科技既提供了一系列的技术、服务和工具帮助更多企业充分

生成式AI AIGC 亚马逊

钉科技 2023-09-08

清华团队领衔打造，首个AI agent系统性基准测试问世

01 首个系统性基准测试

02 “自主”AI代理竞赛正在席卷硅谷

推荐体验

相关资讯

系统性基准测试LLM和持续监控AI性能

ModaHub魔搭社区：AI Agent在操作系统场景下的AgentBench基准测试

AI节能丨数字时代的系统性节能方案

有三AICV系统性专栏课系列学习

用“冰山思维”系统性应对生成式AI安全挑战

近期资讯

微信 iOS 版 8.0.55 最新官方正式版下载发布

浙江飞燕化纤取得一种倍捻机的理线结构专利，保证纱线的张力保持在合适的状态

江苏六甲科技取得超高分子量聚乙烯纤维六辊机专利，降低生产成本

海盐华诚经编取得高速整经机专利，解决整经机运行及工作环境相关问题

义乌市申凯线业取得抗拉缝纫线及线筒专利，便于提升缝纫线抗拉性能

杭州青云新材料取得一种氨纶纱线整经机的双层分纱组件专利，提高纱线的加工效果和成品质量

嘉兴鸿博机电取得布局紧凑高稳定性纺纱设备用面板结构专利，提高空间利用率

浙江鼎艺新材料取得一种高弹性锦纶多孔丝专利，将局部的水快速向周围扩散并快速干燥

索尼 YY2986无线降噪耳机“证件照”曝光：4 种颜色

振华 LEADEX VII P1200W 白金 ATX 3.0 电源白色款预售，1799 元

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响