AI让手机任务自动“跑”起来！我国高校最新研究，简化移动设备操作

作者：量子位发布时间：2024-10-31

MOE KLINNS Lab投稿

量子位 | 公众号 QbitAI

AI解放碳基生物双手，甚至能 让你的手机自己玩自己！

你没听错——这其实就是移动任务自动化。

在AI飞速发展下，这逐渐成为一个新兴的热门研究领域。

移动任务自动化 利用AI精准捕捉并解析人类意图，进而在移动设备（手机、平板电脑、车机终端）上高效执行多样化任务，为那些因认知局限、身体条件限制或身处特殊情境下的用户提供前所未有的便捷与支持。

帮助视障人群用户完成导航、阅读或网上购物
辅助老年人使用手机，跨越数字鸿沟
帮助车主在驾驶过程中完成发送短信或调节车内环境
替用户完成日常生活中普遍存在的重复性任务
……

妈妈再也不嫌重复设置多个日历事项会心烦了。

最近，来自西安交通大学智能网络与网络安全教育部重点实验室 (MOE KLINNS Lab）的蔡忠闽教授、宋云鹏副教授团队（团队主要研究方向为智能人机交互、混合增强智能、电力系统智能化等），基于团队最新AI研究成果，创新性提出了基于视觉的移动设备任务自动化方案 VisionTasker。

这项研究不仅为普通用户提供了更智能的移动设备使用体验，也展现出了对特殊需求群体的关怀与赋能。

基于视觉的移动设备任务自动化方案

团队提出了 VisionTasker，一个结合基于视觉的UI理解和LLM任务规划的两阶段框架，用于逐步实现移动任务自动化。

该方案有效消除了表示UI对视图层次结构的依赖，提高了对不同应用界面的适应性。

值得注意的是，利用VisionTasker无需大量数据训练大模型。

VisionTasker从用户以自然语言提出任务需求开始工作， Agent开始理解并执行指令。

具体实现如下：

1、用户界面理解

VisionTasker通过视觉的方法做UI理解来解析和解释用户界面。

2、任务规划与执行

接下来，Agent利用大语言模型导航，根据用户的指令和界面描述信息做任务规划。

将用户任务拆解为可执行的步骤，如点击或滑动操作，以自动推进任务的完成。

3、持续迭代以上过程

每一步完成后，Agent都会根据最新界面和历史动作更新其对话和任务规划，确保每一步的决策都是基于当前上下文的。

这是个迭代的过程，将持续进行直到判断任务完成或达到预设的限制。

用户不仅能从交互中解放双手，还可以通过可见提示监控任务进度，并随时中断任务，保持对整个流程的控制。

对于没有文本标签的按钮，利用 CLIP 模型基于视觉设计来推断其可能功能。

随后，系统根据 UI 布局的视觉信息进行区块划分，将界面分割成多个具有不同功能的区块，并对每个区块生成自然语言描述。

这个过程还包括文本与小部件的匹配，确保正确理解每个元素的功能。

最终，所有这些信息被转化为自然语言描述，为大语言模型提供清晰、语义丰富的界面信息，使其能够有效地进行任务规划和自动化操作。

实验评估

实验评估部分，该项目提供了对三种UI理解的比较分析，分别是：

GPT-4V
VH（视图层级）
VisionTasker方法

△三种UI理解方法的比较分析

对比显示，VisionTasker在多个维度上比其他方法有显著优势。

此外，在处理跨语言应用时也表现出了良好的泛化能力。

△实验1中使用到的常见UI布局

表明VisionTasker的以视觉为基础的UI理解方法在理解和解释UI方面具有明显优势，尤其是在面对多样化和复杂的用户界面时尤为明显。

△跨四个数据集的单步预测准确性

文章还进行了单步预测实验，根据当前的任务状态和用户界面，预测接下来应该执行的动作或操作。

结果显示，VisionTasker在所有数据集上的平均准确率达到了67%，比基线方法提高了15%以上。

真实世界任务：VisionTasker vs 人类

实验过程中，研究人员设计了147个真实的多步骤任务来测试VisionTasker的表现，这些任务涵盖了国内常用的42个应用程序。

与此同时，团队还设置了人类对比测试，由12名人类评估者手动执行这些任务，然后VisionTasker的结果进行比较。

结果显示，VisionTasker在大多数任务中能达到与人类相当的完成率，并且在某些不熟悉的任务中表现优于人类。

△实际任务自动化实验的结果 “Ours-qwen”是指使用开源Qwen实现VisionTasker框架，”Ours”表示使用文心一言作为LLM

团队还评估了VisionTasker在不同条件下的表现，包括使用不同的大语言模型（LLM）和编程演示（PBD）机制。

VisionTasker 在大多数直观任务中达到了与人类相当的完成率，在熟悉任务中略低于人类但在不熟悉任务中优于人类。

△VisionTasker逐步完成任务的展示结论

作为一个基于视觉和大模型的移动任务自动化框架，VisionTasker克服了现阶段移动任务自动化对视图层级结构的依赖。

通过一系列对比实验，证明其在用户界面表现上超越了传统的编程演示和视图层级结构方法。

它在4个不同的数据集上都展示了高效的UI表示能力，表现出更广泛的应用性；并在Android手机上的147个真实世界任务中，特别是在复杂任务的处理上，表现了出超越人类的任务完成能力。

此外，通过集成编程演示（PBD）机制，VisionTasker在任务自动化方面有显著的性能提升。

目前，该工作已以正式论文的形式发表于2024年10月13-16日在美国匹兹堡举行的人机交互顶级会议 UIST（The ACM Symposium on User Interface Software and Technology）。

UIST是人机交互领域专注于人机界面软件和技术创新的CCF A类顶级学术会议。

项目链接： https://github.com/AkimotoAyako/VisionTasker

— 完—

投稿请发邮件到：

ai@qbitai.com

标题注明【投稿】，告诉我们：

你是谁，从哪来，投稿内容 ‍

附上论文/项目主页链接，以及联系方式哦

我们会（尽量）及时回复你

点这里 👇关注我，记得标星哦～

科技前沿进展日日相见 ~

AI让手机任务自动“跑”起来！我国高校最新研究，简化移动设备操作

推荐体验

相关资讯

OpenAI据悉正开发一种代理软件，通过接管客户设备自动完成复杂任务

OPPO推出AI大模型已接入最新手机操作系统

「天放AI数字人 TFGPT」20.9 自动化任务指ChatGPT可以自动执行常见任务和流程

惠普P900移动固态硬盘帮我实现多设备移动AI绘画

前脚禁用苹果设备，后脚就要造手机？马斯克操作有点“随心所欲”！

近期资讯

高端受阻、成交下降，方太靠AI能突围？

人形机器人有了团体标准：按下肢运动、上肢作业等分4个等级

国际熊猫日：大熊猫尼可萌翻登场，沉浸式体验展《熊猫的世界》即将启幕！

总台周看点丨高秋更上九霄看！

小米15涨价？雷军回应：即便涨价依旧物超所值！猜猜小米15多少钱

真我GT7Pro预热，号称《主流 MOBA》120帧极致画质“满电到关机”最高温39.9°C

意外发现首个“黑洞三重系统”挑战了我们对奇点形成方式的认知

对话金蝶赵燕锡：AI将重塑企业管理体验、流程和决策，但大模型不能解决一切

人形机器人，汽车行业的新力量？

LG化学在欧洲设立创新中心

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响