「真实网络世界」测试场：GPT-4的智能体也只能跑10.59%成功率

作者：机器之心Pro发布时间：2023-07-29

机器之心报道

编辑：陈萍

大模型能在网上完成人类给的任务吗？新的 Benchmark 来了。

随着生成式 AI 的发展，利用大语言模型构建 AI 智能体逐渐走红。比如斯坦福、谷歌联合构建了一个具有 25 个 AI 智能体的「虚拟小镇」，「小镇居民」的行为比人类角色扮演的更加真实，甚至举办了一场情人节派对。

又比如商汤、清华等机构提出的通才 AI 智能体 Ghost in the Minecraft (GITM)，在《我的世界》中比以往所有智能体都有更优秀的表现……

这些 AI 智能体的先后涌现，甚至让人认为是未来通用人工智能（AGI）的雏形。

然而，有些智能体主要是在简化的合成环境中创建和测试的，这极大地限制了它们在现实场景中的应用。强如 ChatGPT，也只能通过插件的方式与互联网进行有限的互动。

本文，来自卡耐基梅隆大学（CMU）等机构的研究者引入了一个逼真且可复现的网络环境 WebArena，旨在促进研究者开发能够执行各种任务的自主智能体。

论文地址：

https://arxiv.org/pdf/2307.13854.pdf

论文主页：https://webarena.dev/#try-it-yourself

项目地址：

https://github.com/web-arena-x/webarena

基于 WebArena 环境，该研究发布了一组基准任务，重点是评估智能体完成任务的准确率。此外，他们还设计并实现了几个自主智能体，这些智能体集成了最先进的技术。

结果表明，在 WebArena 环境中，本文设计的智能体在解决复杂问题任务上的性能较差，即本文设计的基于 GPT-4 的智能体在端到端任务上的成功率只有 10.59%。

由此看来，进一步开发更具鲁棒性的智能体还是很必要的，当前最先进的 LLM 在现实任务中还远远不够，以后，研究者可以借助 WebArena 来衡量基于 LLM 的智能体发展。

WebArena 网络环境概述如图 1 所示，其包含四个网络应用程序：在线购物、论坛讨论、协作开发以及业务内容管理。

为了模拟人类解决问题的方式，WebArena 还嵌入了实用工具和知识资源：实用工具如地图、计算器和草稿本；知识资源如文档、知识库、开发工具使用手册等。

除了 WebArena 之外，他们还开源了一个包含 812 个任务的网络任务基准。

WebArena 介绍

本文的目标是创建一个逼真且可复现的网络环境。为了达到这一目标，研究者用独立环境来实现复现性，而不是依赖于实时网站。

网站是如何选择的为了确定要使用哪些网站类别，该研究首先对大约 200 个示例进行分析，最终确定了四个类别：

支持在线购物活动的电子商务平台（例如 Amazon、eBay）；
用于意见交流的社交论坛平台（例如 Reddit、StackExchange）；
用于软件开发的协作开发平台（例如 GitLab）；
管理数字内容的内容管理系统（CMS）（例如在线商店管理）。

WebArena 网站 Demo 示例如下，包含了上述 4 种场景：

除了这些平台，该研究还选择了三种在网络任务中经常使用的实用工具：

地图，用于导航和搜索有关兴趣点（POIs）的信息，比如机构或位置；

计算器；

便签本，用于记录笔记。

此外，该研究还将各种知识资源纳入 WebArena 环境中。这些资源的范围从一般的信息库如维基百科，到更专业的知识库如网站用户手册。

该研究还设计了观测数据，包括网页的 URL 和内容部分，此外，他们还提供了多种选项来表示内容：可以将内容表示为屏幕截图（左侧）、HTML DOM 树（中间）和 accessibility tree（右侧）。

动作空间

该研究设计了一个复合动作空间，模拟网页上可用的键盘和鼠标操作。表格 1 列出了所有可用的动作，分为三个不同的组别。第一类包括基本操作，如点击、悬停、输入文本和组合键按下。第二类包括选项卡管理动作，如打开、关闭和在选项卡之间切换。第三类包含 URL 导航动作，例如访问特定的 URL 或在浏览历史中前进和后退。

实验

该研究使用了 gpt-3.5-turbo-0613 和 gpt-4-0613 进行实验。

在 WebArena 环境下的主要结果如表 3 所示。由 GPT-4 提供支持的推理智能体在端到端任务上的成功率为 10.63%。相同的推理智能体由 GPT-3.5 提供支持时，成功率降至 7.38%。这些结果表明在涉及长期规划任务上，尤其是在 WebArena 这样逼真环境中执行任务的智能体还面临很多挑战。

下图为 GPT-4 智能体失败案例：左侧，智能体无法进入用户部分；右侧，智能体重复输入相同的搜索查询。

下表为本文基准和现有基准上的比较。

参考链接：

https://twitter.com/shuyanzhxyc/status/1683917253597855744

「真实网络世界」测试场：GPT-4的智能体也只能跑10.59%成功率

推荐体验

相关资讯

AI智能体的炒作与现实：GPT-4都撑不起，现实任务成功率不到15%

研究：GPT-4 在图灵测试中成功率超过 41%，人类保持在 63%

GPT-4 会自己发起漏洞攻击，成功率高达87%

只需CVE漏洞信息，GPT-4利用漏洞成功率高达87%

GPT-4可自主利用“零日漏洞”，以53%的成功率入侵网站

近期资讯

车位5200个由机器人自动作业

“智能”加码向“新”发力（全力拼经济决胜全年红拼在一线干在一线）

轻松掌握双卡双待手机设置，提升生活与工作便利性指南

东莞市溢佳睿五金塑胶制品有限公司取得一种万向脚杯专利，增加脚杯本身结构的稳固性和使用时的可靠性

PSSR技术加持《黑神话：悟空》PS5 Pro版画面表现惊艳

扬州维扬经开区壮大“耐心资本”开启招商新篇章

杭州 eHub：投资 10 亿，2027 年运营

“和合共生”彰显中华民族文化自信（国际论坛）

新探索！河南职校发力“空间计算+物流电子商务”新领域

REDMI Turbo 4 性能再遭曝光，2025年首款性能猛兽？

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响