通用网页 Agent SeeAct 是以多模态大模型为基础的 Agent 代表之一。其作者俄亥俄州立大学计算机系的苏煜教授,在 ChatGPT 发布之前,就带组开发首个全面衡量大模型上网能力的数据集 Mind2Web,可谓意识超前。
《GPT-4V(ision) is a Generalist Web Agent, if Grounded》
解决问题:建立在大型多模态模型 LMM 之上的 SeeAct 将 Web Agent 的能力扩展到视觉问答、网页操作、在线购物等多模态任务,解决了单纯建立在语言模型上 Web Agent 存在较大边界且准确率较低的问题
模型架构:SeeAct 利用 GPT-4V 等多模态大模型进行网页视觉感知,以文本形式生成计划,通过预言式定位(Oracle Grounding)将文本计划对应到 HTML 元素后执行操作
使用效果:在 Mind2Web 数据集上评估 SeeAct,SeeAct 能够在不同网站上成功完成 50% 的任务,明显优于现有方法如 GPT-4(20%)或 FLAN-T5(18%)
应用空间:Web Agent
形成过程: 给定汽车租赁网站 + 任务 T(以最低的价格租一辆卡车),Web Agent 生成一系列操作,在时间步长 T 处,Agent 应根据当前环境观察结果 S,之前行动生成 A
结论与分析: GPT-4V 可以成为具有 Oracle Grounding 功能的通用 Web Agent,通过人工注释的 GPT-4V+SeeAct Oracle,模型三次成功率分别是 65.7%,80%,62.1%,远远高于其他模式;在交叉任务设置中,他比排名第二的方法的步骤成功率高 11.9%,跨网络和跨域设置下成功率领先 28.3% 和 21.2%
绿洲:您是从什么时候开始关注 Agent 的?最新的进展如何?
苏教授: 我过去在清华读计算机,后来在 UCSB 读博士,期间换过导师做 Data Mining,最后转型做 NLP,过程中学习了非常多从底层数据到上层智能体所需的各种技术。
我在 2017 年开始做 Language to Web 的 Web API,那时还是利用语言来发邮件、看天气,而不像现在能写代码。后来 InstructGPT、GPT-3 等模型显现出来强大的泛化性,证明 LLM 能力逐渐完善。我们组意识到技术的演进让我们离实现 Agent 目标越来越近,于是开始有了做 Agent 的想法。我们在行业里思考 Agent 非常早,在 ChatGPT 尚未发布之前,我就带着组开始做 Web Agent 测试集 Mind2Web。到现在已经在 Agent 领域发了相当一部分论文了,例如 SeeAct、LLM-Planner、TravelPlanner、AgentBench 等。
绿洲:我们看到 Yang Lecun 也转发您 Travel Planner 的论文。
苏教授:是的,携程也主动接触了我们。
绿洲:请给我们介绍一下 SeeAct 论文的 Agent 基础架构。
苏教授: 在 Web Agent 中,多模态大模型能够更好的实现前端的信息获取和后端的指令执行。大模型通过视觉理解网页获取更精准的网页信息,为后续指令生成的推理环节做准备。推理生成的指令包含各种动作,通过定位进行网页元素定位,最终完成动作执行。
SeeAct 的关键在于使用了多模态大模型(GPT-4V)以及预言式定位(Oracle Grounding)完成 Web Agent 决策与定位,最终获得了比语言大模型更高的任务执行成功率。
绿洲:定位对于 Agent 意味着什么呢?
苏教授: 不管哪种类型的 Agent,定位永远是最核心的问题之一。因为 Agent 的界定属性之一就是把大语言模型和外部环境结合在一起,要实现这个目标必须做两件事:第一是环境信息的输入,第二是动作指令的输出。环境的定位准确性是推理的基础,指令输出的准确性是行动的核心,因此定位扮演了重要的角色。在 SeeAct 这篇论文中我们更关注动作指令输出中的定位,这较环境输入定位更具有挑战性。
绿洲:以多模态大模型作为底层基础模型,对 Agent 在网页任务执行上的提升体现在哪里?
苏教授: 多模态模型对比语言模型,能够同时把感知和规划一起完成,不需要额外的工具(比如物体识别),减少中间环节就减少错误发生的可能性,过程中的表达也更加统一。另一方面还能提高推理效率,降低成本,因为视觉是一种非常高效的表达方式。同样的信息,语言模型表达所需的 token 数是视觉模型的10x 以上。
绿洲:您觉得底层大模型能力不断变强的过程中,Agent 的能力会否被大模型兼容?
苏教授: 我不认为未来大模型会把 Agent 能做的事全替代掉。我认为多模态大模型会越来越好,慢慢接近人脑部分皮层的水平。但人脑中多模态的交互和协调是非常强大的,远强于任何大模型,大模型长期只会慢慢逼近人脑。与此同时,人们对于 AI Agent 的期待比人类本身更高,人们想让它知道世界上所有的事情,捕捉真实世界的动态信息,完成上千种任务。但是把 Agent 所有功能全部打包在一个模型里是非常难的,同时也不经济。
绿洲:您觉得未来会是一个通用 Agent 框架解决大部分问题,还是垂直类 Agent 分散解决小问题?
苏教授: 我觉得两者不矛盾,会共存。我们想象一下人脑智力形成的过程,基因控制了人脑的发育,人只有 2-3 万个蛋白质编码基因,其中一小部分参与大脑的编码,最后产生了结构复杂且具有高度适应性的大脑。我们可以把人脑理解为一个可编程电脑(Programmable Computer),在不同环境、成长背景会发展出完全不同的能力。Agent 最终需要努力的方向是研究一个类似于 DNA 和大脑的组成,其结构非常缜密,可以进行控制,且拥有持续学习能力,最终放到不同环境中,训练出垂类 Agent。
绿洲:如何能让 Agent 实现与人脑类似的功能呢?
苏教授:我们组目前在重点研究 Biologically Inspiring AI,我个人也非常喜欢生物,我们最近出的另一篇论文叫 BioCLIP,针对整个 Tree of Life 做图像识别,支持超过 200 万物种,仅仅通过一张照片就能识别出物种。
物种演化和自然选择是一种真正能化腐朽为神奇的力量。经过几十亿年的演化,自然选择已经找到了很多很好的局部最优的设计。我并不是说 AI 要完全去模仿生物智能,而是生物智能是目前我们所知的最强智能了。作为 AI 研究者来说,我们必须很好地理解生物智能,才能帮助开发更好的 AI。AI 下一阶段的发展很有必要从生物智能中找到并集成这些和现代 AI 框架兼容的局部最优设计。从某些方面来说,AI 所依赖的梯度下降和自然选择是互通的,无论是人工神经网络还是生物,两者都在同一种机制下,通过长时间充满随机性和大量计算下的演化,产生纷繁多样的设计。
通过 Biologically Inspired AI 的研究,我们认识到要真正实现 Agent 的功能,还需要更多探索。举个具体的例子,比如目前 Agent 框架中对 Memory 的实现方式还不甚理想。人脑的记忆定义了“你”是谁,因为记忆里有你过去的经验,支撑了你的核心决策能力,其本身兼具条理和灵活性。而现在大部分 Agent 记忆设计只是一个简单的向量数据库,简单做基于高密度相似性的检索,这和真实人脑的工作流程还有很大差距。我们下一个课题就在做根据人脑长期记忆检索的方式来做 Agent 的长期记忆。
绿洲:对于未来 Agent 的发展,你觉得需要注意些什么呢?
苏老师: Agent 的安全问题是怎么提也不为过的话题,未来 Web Agent 极有可能在真实网页上捣乱,或者造成信息泄露,这都是目前人们忽视的地方。现在大部分人都在抢着定义各行各业的 Agent,在 Safety 方面还未引起足够的重视。我们组最近定义了各种对 Agent 的攻击,希望未来能对 Agent 安全领域发展做出更多的贡献。
本文来自微信公众号“緑洲资本 Vitalbridge”(ID:Vitalbridge),作者:参赞生命力,36氪经授权发布。