俄亥俄州立大学苏煜教授：See! Then Act | Agent Insights

作者：绿洲资本发布时间：2024-03-19

OpenAI

通用网页 Agent SeeAct 是以多模态大模型为基础的 Agent 代表之一。其作者俄亥俄州立大学计算机系的苏煜教授，在 ChatGPT 发布之前，就带组开发首个全面衡量大模型上网能力的数据集 Mind2Web，可谓意识超前。

《GPT-4V(ision) is a Generalist Web Agent, if Grounded》

解决问题：建立在大型多模态模型 LMM 之上的 SeeAct 将 Web Agent 的能力扩展到视觉问答、网页操作、在线购物等多模态任务，解决了单纯建立在语言模型上 Web Agent 存在较大边界且准确率较低的问题

模型架构：SeeAct 利用 GPT-4V 等多模态大模型进行网页视觉感知，以文本形式生成计划，通过预言式定位（Oracle Grounding）将文本计划对应到 HTML 元素后执行操作

使用效果：在 Mind2Web 数据集上评估 SeeAct，SeeAct 能够在不同网站上成功完成 50% 的任务，明显优于现有方法如 GPT-4（20%）或 FLAN-T5（18%）

应用空间：Web Agent

形成过程： 给定汽车租赁网站 + 任务 T（以最低的价格租一辆卡车），Web Agent 生成一系列操作，在时间步长 T 处，Agent 应根据当前环境观察结果 S，之前行动生成 A

结论与分析： GPT-4V 可以成为具有 Oracle Grounding 功能的通用 Web Agent，通过人工注释的 GPT-4V+SeeAct Oracle，模型三次成功率分别是 65.7%，80%，62.1%，远远高于其他模式；在交叉任务设置中，他比排名第二的方法的步骤成功率高 11.9%，跨网络和跨域设置下成功率领先 28.3% 和 21.2%

绿洲：您是从什么时候开始关注 Agent 的？最新的进展如何？

苏教授： 我过去在清华读计算机，后来在 UCSB 读博士，期间换过导师做 Data Mining，最后转型做 NLP，过程中学习了非常多从底层数据到上层智能体所需的各种技术。

我在 2017 年开始做 Language to Web 的 Web API，那时还是利用语言来发邮件、看天气，而不像现在能写代码。后来 InstructGPT、GPT-3 等模型显现出来强大的泛化性，证明 LLM 能力逐渐完善。我们组意识到技术的演进让我们离实现 Agent 目标越来越近，于是开始有了做 Agent 的想法。我们在行业里思考 Agent 非常早，在 ChatGPT 尚未发布之前，我就带着组开始做 Web Agent 测试集 Mind2Web。到现在已经在 Agent 领域发了相当一部分论文了，例如 SeeAct、LLM-Planner、TravelPlanner、AgentBench 等。

绿洲：我们看到 Yang Lecun 也转发您 Travel Planner 的论文。

苏教授：是的，携程也主动接触了我们。

绿洲：请给我们介绍一下 SeeAct 论文的 Agent 基础架构。

苏教授： 在 Web Agent 中，多模态大模型能够更好的实现前端的信息获取和后端的指令执行。大模型通过视觉理解网页获取更精准的网页信息，为后续指令生成的推理环节做准备。推理生成的指令包含各种动作，通过定位进行网页元素定位，最终完成动作执行。

SeeAct 的关键在于使用了多模态大模型（GPT-4V）以及预言式定位（Oracle Grounding）完成 Web Agent 决策与定位，最终获得了比语言大模型更高的任务执行成功率。

绿洲：定位对于 Agent 意味着什么呢？

苏教授： 不管哪种类型的 Agent，定位永远是最核心的问题之一。因为 Agent 的界定属性之一就是把大语言模型和外部环境结合在一起，要实现这个目标必须做两件事：第一是环境信息的输入，第二是动作指令的输出。环境的定位准确性是推理的基础，指令输出的准确性是行动的核心，因此定位扮演了重要的角色。在 SeeAct 这篇论文中我们更关注动作指令输出中的定位，这较环境输入定位更具有挑战性。

绿洲：以多模态大模型作为底层基础模型，对 Agent 在网页任务执行上的提升体现在哪里？

苏教授： 多模态模型对比语言模型，能够同时把感知和规划一起完成，不需要额外的工具（比如物体识别），减少中间环节就减少错误发生的可能性，过程中的表达也更加统一。另一方面还能提高推理效率，降低成本，因为视觉是一种非常高效的表达方式。同样的信息，语言模型表达所需的 token 数是视觉模型的10x 以上。

绿洲：您觉得底层大模型能力不断变强的过程中，Agent 的能力会否被大模型兼容？

苏教授： 我不认为未来大模型会把 Agent 能做的事全替代掉。我认为多模态大模型会越来越好，慢慢接近人脑部分皮层的水平。但人脑中多模态的交互和协调是非常强大的，远强于任何大模型，大模型长期只会慢慢逼近人脑。与此同时，人们对于 AI Agent 的期待比人类本身更高，人们想让它知道世界上所有的事情，捕捉真实世界的动态信息，完成上千种任务。但是把 Agent 所有功能全部打包在一个模型里是非常难的，同时也不经济。

绿洲：您觉得未来会是一个通用 Agent 框架解决大部分问题，还是垂直类 Agent 分散解决小问题？

苏教授： 我觉得两者不矛盾，会共存。我们想象一下人脑智力形成的过程，基因控制了人脑的发育，人只有 2-3 万个蛋白质编码基因，其中一小部分参与大脑的编码，最后产生了结构复杂且具有高度适应性的大脑。我们可以把人脑理解为一个可编程电脑（Programmable Computer），在不同环境、成长背景会发展出完全不同的能力。Agent 最终需要努力的方向是研究一个类似于 DNA 和大脑的组成，其结构非常缜密，可以进行控制，且拥有持续学习能力，最终放到不同环境中，训练出垂类 Agent。

绿洲：如何能让 Agent 实现与人脑类似的功能呢？

苏教授：我们组目前在重点研究 Biologically Inspiring AI，我个人也非常喜欢生物，我们最近出的另一篇论文叫 BioCLIP，针对整个 Tree of Life 做图像识别，支持超过 200 万物种，仅仅通过一张照片就能识别出物种。

物种演化和自然选择是一种真正能化腐朽为神奇的力量。经过几十亿年的演化，自然选择已经找到了很多很好的局部最优的设计。我并不是说 AI 要完全去模仿生物智能，而是生物智能是目前我们所知的最强智能了。作为 AI 研究者来说，我们必须很好地理解生物智能，才能帮助开发更好的 AI。AI 下一阶段的发展很有必要从生物智能中找到并集成这些和现代 AI 框架兼容的局部最优设计。从某些方面来说，AI 所依赖的梯度下降和自然选择是互通的，无论是人工神经网络还是生物，两者都在同一种机制下，通过长时间充满随机性和大量计算下的演化，产生纷繁多样的设计。

通过 Biologically Inspired AI 的研究，我们认识到要真正实现 Agent 的功能，还需要更多探索。举个具体的例子，比如目前 Agent 框架中对 Memory 的实现方式还不甚理想。人脑的记忆定义了“你”是谁，因为记忆里有你过去的经验，支撑了你的核心决策能力，其本身兼具条理和灵活性。而现在大部分 Agent 记忆设计只是一个简单的向量数据库，简单做基于高密度相似性的检索，这和真实人脑的工作流程还有很大差距。我们下一个课题就在做根据人脑长期记忆检索的方式来做 Agent 的长期记忆。

绿洲：对于未来 Agent 的发展，你觉得需要注意些什么呢？

苏老师： Agent 的安全问题是怎么提也不为过的话题，未来 Web Agent 极有可能在真实网页上捣乱，或者造成信息泄露，这都是目前人们忽视的地方。现在大部分人都在抢着定义各行各业的 Agent，在 Safety 方面还未引起足够的重视。我们组最近定义了各种对 Agent 的攻击，希望未来能对 Agent 安全领域发展做出更多的贡献。

本文来自微信公众号“緑洲资本 Vitalbridge”（ID:Vitalbridge），作者：参赞生命力，36氪经授权发布。

俄亥俄州立大学苏煜教授：See! Then Act | Agent Insights

推荐体验

相关资讯

上海交通大学温颖教授：打造“通才”Agent｜Agent Insights

ChatGPT要当大学教授了：OpenAI与美国亚利桑那州立大学合作

密歇根州立大学：学生福祉的新时代

首位“AI教授”入职亚利桑那州立大学：将采用GPT4辅导学生

与亚利桑那州立大学合作，OpenAI如何布局教育？

近期资讯

镇江金裕精密零件取得一种针孔件加工清洗槽专利，避免杂质和污染物引入，提高清洗环境洁净度

中孚生物取得超声波粗洗机专利，提高药瓶清洁效率

洛阳隆中重工取得一种超声波擦洗机专利，拆卸维护更方便

信阳华容取得铝电解电容器导针清洗装置专利，有利于导针的清洗和杂质的去除

宁德邦源能源科技取得一种电池铝壳超声波清洗设备专利，提高装置清洗效率

西安华兴搏发光电科技取得镜片清洗设备专利，使镜片装夹死角得到充分清洗

益阳仪纬科技取得铝合金件铸造用清洗装置专利，有效提升铝合金件清洗效率和质量

大连齐化新材料取得一种环氧树脂清洗装置专利，减少原材料中的杂质

井成博高取得阀门制造用的内部残留物清洗设备专利，方便对清洗设备内底面尘屑清理，提高实用性

研究显示AI可能会被用来操控用户的选择相关用户数据将被出售

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响