南洋理工团队打造任务数据集和测试基准，提高网页智能体的任务完成能力

作者：DeepTech深科技发布时间：2024-07-18

近日，通过使用GPT-4v、Gemini-pro等大模型，南洋理工大学实习生张子牛和所在团队发现，目前网页智能体的能力还非常欠缺，尤其是在完成多个子任务混合的任务时。

为了提高智能体在网页上的操作能力，该课题组打造了一个任务数据集并进行基准测试。

在这个数据集的帮助之下，智能体需要处理多模态的网页信息，并通过在不同网页上的操作完成任务，从而更加贴近真实情况之下人们在网页上的操作。

同时，该团队发现智能体存在较大的记忆缺陷，严重影响了多跳问题的准确率，针对此他们提出一种记忆模块，借此改善了上述问题。

总的来说，本次成果将能改进智能体的任务完成能力并为后续工作提供测试基准。

据介绍，本次成果是一系列工作中的其中一个。最初，针对美国卡内基梅隆大学团队打造的单跳单模态测试基准Webarena，张子牛，田淑琳，陈亮宇等人对其进行了复现。

后来，通过仔细分析Webarena的任务能力、以及智能体完成任务的情况，他们发现还有很多值得继续挖掘的内容。

比如，为什么任务不够贴近现实情况？为什么智能体能力比较欠缺等？

通过阅读其他与网页智能体相关的论文。该团队考虑将任务从单模态扩展到多模态。

此前，当网页智能体在网页上处理信息的时候，通常不会只看文字。为此，他们尝试从一些包含图片的在线网站，比如从一些美术馆的官网中提取图片信息。

但是，由于自身的保护措施，很多网页都不能从其HTML文件中提取图片信息。

后来，他们转而从购物网站和维基百科中提取图片信息，并为网页智能体制作了一些多模态任务。

接着，该团队将任务拓展到多跳任务上，并决定以旅行任务为例来开展研究。随后，他们将智能体在数据集上进行测试。

在视觉信息的处理上，他们也使用了多种方法：比如直接将图片作为prompt提供给智能体，或者先将图片提供给多模态大模型进行处理、再把处理结果合并给智能体等。

期间，他们发现：此前使用的针对任务整体的评价方式，在对多跳任务中并不合适。于是，他们提出了一种针对于多跳任务的新型评价方式。

而在分析智能体的实验结果时，其发现智能体的记忆能力非常欠佳，于是提出了一个记忆增强模块，以用于提高智能体的能力，并针对此做了消融实验。

日前，相关论文以《MMInA：多跳多模态互联网代理基准测试》（MMInA: Benchmarking Multihop Multimodal Internet Agents）为题发在arXiv。

图 | 相关论文（来源：arXiv）

与此同时，该团队也正在关注网页智能体的最新进展。后续，课题组或打算将整个网页的截屏作为输入来提供给智能体。

相关资讯

金融界 2024-11-11

GPT-4完成正确率仅6%！北大等提出首个「多轮、多模态」PPT任务完成基准PPTC

【新智元导读】为了填补LLM在复杂多模态环境中利用复杂工具完成多轮、多模态指令的评估空白，研究人员引入了PowerPoint任务完成（PPTC）基准测试，以评估LLM创建和编辑PPT文档的能力。最

GPT-4 北大

新智元 2023-11-07

近期资讯

南京山景科技取得自动化药房机械手结构专利，提高了自动化药房的入药效率

金融界2024年12月26日消息，国家知识产权局信息显示，南京山景科技有限公司取得一项名为“一种自动化药房的机械手结构”的专利，授权公告号CN222200612U，申请日期为2024年5月。

金融界 2024-12-26

睿魔创新取得重力补偿机构及具有该重力补偿机构的机械臂专利，实现机械臂重力补偿

金融界2024年12月26日消息，国家知识产权局信息显示，睿魔创新科技（成都）有限公司取得一项名为“重力补偿机构及具有该重力补偿机构的机械臂”的专利，授权公告号CN222200615U，申请日期为2024年4月。

金融界 2024-12-26

苏州科瓴申请自移动设备的控制方法和自移动设备专利，有效防止漏割的草被识别为障碍物

金融界2024年12月26日消息，国家知识产权局信息显示，苏州科瓴精密机械科技有限公司申请一项名为“自移动设备的控制方法和自移动设备”的专利，公开号CN119179323A，申请日期为2023年6月。专利摘要显示，本发明公开了一种自移动设备的控制方法和自移动设备。

金融界 2024-12-26

永越智能取得用于实验室服务机器人的柔性夹爪专利，结构简单、夹持方便

金融界2024年12月26日消息，国家知识产权局信息显示，福建永越智能科技股份有限公司取得一项名为“一种用于实验室服务机器人的柔性夹爪”的专利，授权公告号CN222200611U，申请日期为2024年5月。

金融界 2024-12-26

国联智慧申请无人牵引车短倒运输专利，提高自动驾驶安全性

金融界2024年12月26日消息，国家知识产权局信息显示，国联智慧能源交通技术创新中心（苏州）有限公司申请一项名为“无人牵引车短倒运输的控制方法、装置和存储介质”的专利，公开号CN119179324A，申请日期为2023年6月。

金融界 2024-12-26

安徽万嘉智能取得立柱式旋转机械手升降结构专利，实现机械手转向功能

金融界2024年12月26日消息，国家知识产权局信息显示，安徽万嘉智能设备制造有限公司取得一项名为“一种立柱式旋转机械手升降结构”的专利，授权公告号CN222200617U，申请日期为2024年5月。专利摘要显示，本实用新型提供了一种立柱式旋转机械手升降结构，属于旋转机械手技术领域。

金融界 2024-12-26

四川嘉拓智能设备取得非定心坩埚夹持机构专利，可提高夹持坩埚的成功率

金融界2024年12月26日消息，国家知识产权局信息显示，四川嘉拓智能设备有限公司取得一项名为“种非定心坩埚夹持机构”的专利，授权公告号CN222200609U，申请日期为2024年4月。

金融界 2024-12-26

深圳市龙方自动化科技取得双限位式单轴机器人专利，有效防止过载和超程

金融界2024年12月26日消息，国家知识产权局信息显示，深圳市龙方自动化科技有限公司取得一项名为“一种双限位式单轴机器人”的专利，授权公告号CN222200613U，申请日期为2024年4月。

金融界 2024-12-26

贵州新征程暖通工程有限公司取得一种便于快速更换电池的机器人电池仓结构专利，方便对电池本体进行更换

金融界2024年12月26日消息，国家知识产权局信息显示，贵州新征程暖通工程有限公司取得一项名为“一种便于快速更换电池的机器人电池仓结构”的专利，授权公告号CN222200616U，申请日期为2024年5月。

金融界 2024-12-26

智信能源和稀云申请分体式光伏板清扫机器人轨迹纠偏控制算法专利，使挂车和主体车保持同步

金融界2024年12月26日消息，国家知识产权局信息显示，智信能源科技有限公司和武汉稀云科技有限公司申请一项名为“一种分体式光伏板清扫机器人的轨迹纠偏控制算法”的专利，公开号CN119179325A，申请日期为2024年6月。

金融界 2024-12-26

南洋理工团队打造任务数据集和测试基准，提高网页智能体的任务完成能力

推荐体验

相关资讯

新V观海外：数据集和基准测试变革预示AI能力突变

特斯联发布多模态多任务调度能力通用智能体

Talk | 南洋理工大学博士生刘畅：引用分割简述-从经典任务到广义引用分割

北京方寸无忧申请基于多角色智能体的智慧写作方法及系统专利，提高系统对不同写作任务的适应能力

GPT-4完成正确率仅6%！北大等提出首个「多轮、多模态」PPT任务完成基准PPTC

近期资讯

南京山景科技取得自动化药房机械手结构专利，提高了自动化药房的入药效率

睿魔创新取得重力补偿机构及具有该重力补偿机构的机械臂专利，实现机械臂重力补偿

苏州科瓴申请自移动设备的控制方法和自移动设备专利，有效防止漏割的草被识别为障碍物

永越智能取得用于实验室服务机器人的柔性夹爪专利，结构简单、夹持方便

国联智慧申请无人牵引车短倒运输专利，提高自动驾驶安全性

安徽万嘉智能取得立柱式旋转机械手升降结构专利，实现机械手转向功能

四川嘉拓智能设备取得非定心坩埚夹持机构专利，可提高夹持坩埚的成功率

深圳市龙方自动化科技取得双限位式单轴机器人专利，有效防止过载和超程

贵州新征程暖通工程有限公司取得一种便于快速更换电池的机器人电池仓结构专利，方便对电池本体进行更换

智信能源和稀云申请分体式光伏板清扫机器人轨迹纠偏控制算法专利，使挂车和主体车保持同步

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响