微软开源 OmniParser 纯视觉 GUI 智能体：让 GPT-4V秒懂屏幕截图

IT之家

2024-10-29 10:06发布于湖北IT之家官方账号

IT之家 10 月 29 日消息，科技媒体 marktechpost 于 10 月 24 日发布博文，报道称微软公司宣布开源 OmniParser，是一款解析和识别屏幕上可交互图标的 AI 工具。

项目背景

传统的自动化方法通常依赖于解析 HTML 或视图层次结构，从而限制了其在非网络环境中的适用性。

而包括 GPT-4V 在内的现有的视觉语言模型（VLMs），并不擅长解读复杂 GUI 元素，导致动作定位不准确。

项目简介

微软为了克服这些障碍，推出了 OmniParser，是一种纯视觉基础的工具，旨在填补当前屏幕解析技术中的空白。

该工具并不需要依赖额外的上下文数据，可以理解更复杂的图形用户界面（GUI），是智能 GUI 自动化领域的一项令人兴奋的进展。

OmniParser 结合可交互区域检测模型、图标描述模型和 OCR 模块等，不需要 HTML 标签或视图层次结构等显式基础数据，能够在桌面、移动设备和网页等上跨平台工作，提高用户界面的解析准确性。

OmniParser 除了识别屏幕上的元素，还能将这些元素转换成结构化的数据。

测试表现

OmniParser 在多个基准测试中显示出优越的性能。例如，在 ScreenSpot 数据集中，其准确率提高了 73%，显著超越依赖 HTML 解析的模型。

这一设计不仅能生成类似文档对象模型（DOM）的结构化表示，还能通过叠加边界框和功能标签来引导语言模型做出更准确的用户动作预测。

同时，GPT-4V 在使用 OmniParser 输出后，图标的正确标记率从 70.5% 提升至 93.8%。这些改进表明，OmniParser 能够有效解决当前 GUI 交互模型的根本缺陷。

OmniParser 的发布不仅拓宽了智能体的应用范围，也为开发者提供了一个强大的工具，助力创建更智能、更高效的用户界面驱动智能体。微软目前已在 Hugging Face 上发布 OmniParser，普及这一前沿技术，将进一步推动多模态 AI 的发展，特别是在无障碍、自动化和智能用户辅助等领域。

IT之家附上参考地址

查看原图 29K

微软开源 OmniParser 纯视觉 GUI 智能体：让 GPT-4V秒懂屏幕截图

微软开源 OmniParser 纯视觉 GUI 智能体：让 GPT-4V秒懂屏幕截图

项目背景

项目简介

测试表现

推荐体验

相关资讯

微软开源 OmniParser 纯视觉 GUI 智能体：让 GPT-4V秒懂屏幕截图

🔥🔥🔥 计算机视觉 GPT-4V 它来了！

在视觉提示中加入「标记」，微软等让GPT-4V看的更准、分的更细

我们与 GPT-4V 的距离

Can GPT-4V(ision) serve medical applications ?

近期资讯

不是我说，ColorOS也太懂用户了吧！

【学员见证】王兴宇老师2024年押题神准

一汽-大众汽车有限公司领导班子成员调整

什么是第三方检测机构？能为企业做什么？

天冷玩手机怕冻手？OPPO A5 Pro真实体验，手套模式完全不在怕

智慧出行进景区：无人驾驶观光车开启新“蓝海”？

全焦段人像摄影的新标杆！vivo S20 Pro深度评测

vivo S20系列——美的见证者，自拍与摄影的双重盛宴

OPPO A5 Pro上手有多爽？超低温也能爽玩，最强信号红包抢到手软

中国专利答审 | 审查背后的逻辑 - 审查员为什么大量使用公知常识

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响