苹果发布多模态模型 Ferret-UI，部分手机 UI 任务超越 GPT-4V

作者：雷峰网leiphone发布时间：2024-04-10

编译 | 赖文昕

编辑 | 陈彩娴

大模型的诞生，让科技巨头与创业公司们在新一轮的竞赛中再次鸣枪出发，OpenAI、Anthropic、Mistral等创业之星的升起更是证明了在新技术的影响下，大厂并不存在绝对的优势。

不久前，苹果叫停了启动十多年且投入数十亿美元的自动驾驶电动汽车项目，美国总部裁员了600多人，另有近2000名员工转到AI部门。

然而，在目前市场上的主流智能手机品牌中，苹果几乎是唯一一家尚未正式推出大模型的厂商。长期处在领头羊地位的苹果，似乎在大模型这一局中罕见地落后了。

4月8日，苹果发表了一个名为“Ferret-UI”的新工作，这是一个能“看懂”手机屏幕上并能执行任务的多模态模型，专为增强对移动端 UI 屏幕的理解而定制，配备了引用（referring）、定位（grounding）和推理（reasoning）功能。

论文链接：https://arxiv.org/pdf/2404.05719.pdf

半年前，苹果和哥伦比亚大学研究团队联合发布的多模态大模型“Ferret”就已具有较高的图文关联能力，而“Ferret-UI”则是更聚焦移动端、关注用户交互。

研究团队认为，Ferret-UI 具备了解决现有大部分通用多模态大模型所缺乏的理解用户界面 (UI) 屏幕并与其有效交互的能力。

UI 任务表现超越GPT-4V

将重点放在 UI 后，Ferret-UI 有何亮点呢？

苹果的团队比较了 Ferret-UI-base、Ferret-UI-anyres、Ferret 和 GPT-4V 在所有 UI 任务上的性能，并在高级任务上将开源的 UI 多模态模型 Fuyu 和 CogAgent 也纳入对比之中。

首先是基础的 UI 任务性能测试。

Ferret-UI 在大多数基础 UI 任务上都展现出了优越的性能，尤其是在与iPhone相关的任务上，除了“查找文本”任务外，它在所有任务上都超过了Ferret和GPT-4V。

在OCR（光学字符识别）、图标识别和控件分类等基础 UI 任务上，Ferret-UI 的平均准确率分别为72.9%、82.4%和81.4%，远超 GPT-4V 的平均准确率，后者分别为47.6%、61.3%和37.7%。

在安卓任务上，GPT-4V 的性能显著下降，特别是在定位任务上，这可能是因为安卓屏幕上的小部件更多且更小，使得定位任务更具挑战性。

值得一提的是，在OCR任务中，模型预测的是目标区域旁边的文本，而不是目标区域内的文本。这对于较小的文本和非常靠近其他内容的文本来说很常见。

而 Ferret-UI 却能够准确预测部分被切断的文本，即使在OCR模型返回错误文本的情况下也是如此。

在查找文本、查找图标和查找控件等定位任务上，Ferret-UI也展现出了优越的性能。

而在高级 UI 任务性能的比拼中，Ferret-UI 同样表现优秀。在详细描述（DetDes）、感知对话（ConvP）、交互对话（ConvI）和功能推断（FuncIn）等高级任务上，Ferret-UI 展现了与 GPT-4V 相当的性能，并且在某些任务上超过了GPT-4V。

而与开源UI多模态模型 Fuyu 和 CogAgent 相比，Ferret-UI 在大多数任务上均实现超过。特别是在 iPhone 平台上，Ferret-UI 的性能得分显著高于 Fuyu 和 CogAgent。

而且，尽管 Ferret-UI 的训练数据集没有包含特定的安卓数据，但它在安卓平台的高级任务上仍表现出了可观的性能，表明了模型具有在不同操作系统间的 UI 知识迁移能力。

Anyres 技术解决屏幕长宽比各异难题

那么，Ferret-UI 是如何做到在多项 UI 任务中表现出色的呢？

Ferret-UI 的一个关键创新是在 Ferret 的基础上引入了“任何分辨率”（any resolution，简称anyres）技术。这项技术是为了解决移动设备 UI 屏幕长宽比多样化的问题而提出的。

虽然 Ferret-UI-base 紧密遵循 Ferret 的架构，但 Ferret-UI-anyres 加入了额外的细粒度图像特征，尤其是一个预训练的图像编码器和投影层为整个屏幕生成图像特征。

对于根据原始图像长宽比获得的每个子图像，都会生成额外的图像特征；对于具有区域引用的文本，一个视觉采样器会生成相应的区域连续特征。

大型语言模型（LLM）则使用全图表示、子图表示、区域特征和文本嵌入来生成响应。

Ferret-UI-anyres架构

不过，Anyres 技术有何特别之处？

传统的模型可能需要固定大小的输入，但手机等移动设备的屏幕大小和长宽比各异，显然给模型的输入带来了挑战。

为了适应这一点，Ferret-UI 将屏幕分割成多个子图像，这样可以对每个子图像进行放大，从而捕捉到更多的细节。

具体来说，对于每个基于原始图像长宽比获得的子图像，都会生成额外的图像特征。对于具有区域引用的文本，视觉采样器会生成相应的区域连续特征。

这种方法不仅适用于不同长宽比的屏幕，还提高了模型对UI元素的细节识别能力，能够突出显示屏幕上的小型对象，如图标和文本，对于提高模型的识别和定位精度至关重要。

另外，苹果研究团队还设计了一个分层次的实验方法，从简单到复杂，以逐步提升 Ferret-UI 模型的能力。

从基础的识别和分类任务开始，Ferret-UI 模型建立了对 UI 元素的基本理解，学会了识别和分类 UI 元素，为处理更复杂的任务打下基础。

接着逐步过渡到需要更高层次理解的对话和推断任务。随着模型能力的提高，任务变得更加复杂，要求模型不仅要识别 UI 元素，还要理解它们的功能和上下文。高级任务的设计为模型提供了必要的背景知识和理解能力，使其能够处理复杂的UI交互。

分层次的任务设计不仅有助于模型逐步学习，还能够确保模型在面对更复杂的 UI 交互时具有足够的背景知识和理解能力。通过这种方式，Ferret-UI 能够更好地理解和响应用户的指令，提供更加准确和有用的交互。

从基础的识别和分类到高级的描述和推断，Ferret-UI 在面对真实世界中的UI交互时，能够提供准确和有用的响应。再结合 anyres 技术处理不同分辨率的屏幕，进一步增强了其在实际应用中的有效性和用户体验。

结语

面对当下激烈的大模型“厮杀”，科技巨头们亟需思考如何对市场战略和产品进行与时俱进的布局，苹果自然也不例外。

无论是Ferret-UI、Ferret-UI的前身 Ferret 还是旨在改善与语音助手交互的ReALM，苹果正一步步推进着能够读取屏幕信息的模型研究。

Ferret-UI 能够在移动设备上提供高质量的UI理解和交互，但它能否成为一个强大的工具，促使 iPhone 引入 AI，让苹果从稍显落后的境地反超呢？

让我们拭目以待。

雷峰网本文作者 anna042023 将持续关注AI大模型领域的人事、企业、商业应用以及行业发展趋势，欢迎添加交流，互通有无。

Adobe Camera Raw (ACR) 是一款专为摄影师设计的强大RAW文件编辑工具，集成在Adobe Photoshop和Lightroom中。最新版本17.1不仅修复了多项性能问题，还引入了一系列令人振奋的新功能和优化，帮助用户更高效地处理RAW图像，实现卓越的照片效果。 [图片] 主要特点色彩校正：提供丰富的色彩调整选项，包括色温、色调、曝光等，确保每一张照片都能达到最佳色彩表现。细节增强：通过先进的降噪技术和锐化工具，保留更多细节，使图像更加清晰锐利。镜头校正：自动检测并校正镜头畸变

办文绿软 2024-12-25

天神之眼无图城市领航开通，全国都能开，比亚迪稳居智驾第一梯队

从昨天开始，相信大家都陆续刷到了比亚迪高阶智能驾驶辅助系统“天神之眼”在全国范围内正式开通无图城市领航（CNOA）功能的消息，来聊聊我的看法。对于广大迪粉来说，这无疑是个好消息，这意味着腾势、仰望车型用户的高阶智驾不再局限于部分城市，而是“全国都能开，有路都好开”，哪怕是乡村小道它都能搞定，享受高阶智驾带来的乐趣。而对于比亚迪来说，这次CNOA开通，意义更为重大，至此之后，比亚迪天神之眼实力稳居行业第一梯队，也可以让那些质疑比亚迪的黑粉们闭嘴了。可能你会问，此次全国开通的城市领航功能，有什么不同

海评 2024-12-25

统一「瓶中树」产品的创新与环保特性

土壤，作为农业生产的基础，其重要性不言而喻。它孕育了无数的作物，从根茎到果实，无一不依赖于肥沃的土壤。正是土壤的默默奉献，才保障了我们的粮食安全和农业生产的稳定。可以说，没有健康的土壤，就没有丰收的希望。土壤不仅是我们获取食物的源泉，更是一个重要的“碳汇”或“碳源”。在自然界中，植物通过光合作用吸收二氧化碳并释放氧气，从而维持大气中二氧化碳和氧气的平衡。而土壤中的微生物也参与这一过程，它们分解有机物，释放或吸收二氧化碳。因此，健康的土壤有助于减少温室气体的排放，维护全球的生态平衡。此外，土壤还含有多种矿

来聊科技 2024-12-25

中国人民大学管理学硕士徐嘉祥：浅谈企业如何进行差异化营销

网友：您好，非常感谢您抽出时间接受我们的采访。首先，请您简单介绍一下自己在市场营销领域的经历吧。徐嘉祥：你好，我从事市场营销工作已经超过十几年了。最初从基层的市场专员做起，参与过多个品牌的推广活动策划与执行，后来逐步晋升到市场经理、营销总监等职位，涉及的行业包括耐消品、科技、金融等，在不同的市场环境和产品类型中积累了较为丰富的经验。网友：在您看来，当下市场营销环境和过去相比，最大的变化是什么？徐嘉祥：变化非常显著。首先是数字化的全面渗透，互联网和移动技术让信息传播变得前所未有的迅速和广泛，消费者获取

徐嘉祥 2024-12-25

浙江各地市光资源逐月辐照量数据查询

本文数据来源于：光储圈一、前言光资源，是太阳能光伏领域的核心要素。充足、稳定的光照条件，意味着光伏电站能够更高效地将太阳能转化为电能，提高发电效率、增加电力产出，给企业带来更低的用能成本，给投资者创造可观的经济收益。二、浙江各地市光照资源输入本文数据来源于光储圈，数据仅供参考：1）杭州0度倾角的光资源数据：2）湖州0度倾角的光资源数据：3）嘉兴0度倾角的光资源数据：4）金华0度倾角的光资源数据：5）丽水0度倾角的光资源数据：6）宁波0度倾角的光资源数据：7）衢州0度倾角的光资源数据：8）绍兴0度倾角的光资

光储圈小蜜蜂 2024-12-25

领克明年将推首款大型插混SUV 内部代号L946

近日，领克汽车销售有限公司副总经理穆军宣布，领克计划于2025年初推出首款大型高端插电混合动力SUV。新车内部代号为L946，基于全新的大型车电混专属架构开发。目前，该车型已进入路试和宣传筹备阶段，预计将于2025年正式上市。从公布的图片来看，这款SUV车型外观设计优雅，线条流畅，采用隐藏式门把手，展现了领克品牌在设计领域的创新与精细。新车将拥有大型SUV的尺寸，基于SPA Evo架构打造，预计将提供插电混动系统，兼顾性能与燃油经济性。从轮廓来看，领克L946气场强大，采用了方正的车身设计。车头线条平直，

辣车TV 2024-12-25

第四代CS75PLUS Ultra上市搭配最强2.0T发动机

日前，长安汽车在新疆发布了第四代CS75PLUS Ultra新车，共推出两个版本，官方指导价13.19-13.99万元，并同时发布多项重磅购车权益。，包括置换权益：至高置换补贴15000元（本品15000元，非本品14000元）；保养权益：1599元享价值8888元终身免费基础保养；金融权益：享至高7000元金融贴息支持（3年5万0利息，2年6万0利息）；流量权益：基础流量终身免费，娱乐流量3年免费(4G/月)。这是两款款搭载新蓝鲸2.0T高压直喷发动机的版本，加上今年9月发布的两款1.5T版本，目前第四

辣车TV 2024-12-25

2025医械最大IPO终于要来了？

2024年12月19日，麦朗宣布已向美国证券交易委员会（“SEC”）秘密提交了一份有关S-1表格的注册声明草案，据路透社的报道，此次IPO股票发行的金额将高达50亿美元（折合人民币365亿元），这将使其成为2025年医疗器械潜在的最大IPO之一。作为全球第四大医疗设备公司，麦朗在2024年的医疗设计与外包100强榜单中名列前茅。该公司拥有约38,000名员工，年度销售额超过210亿美元，迄今为止一直保持私有状态。它专注于提供广泛的医疗外科产品和全面的医疗保健供应链解决方案。麦朗的上市计划得益于超

科技创新圈 2024-12-25

合肥瑶海区复印机维修及时上门修打印机维修复印机,合肥打印机耗材齐全

合肥地区专业多年提供硒鼓、墨盒、打印机，复印机销售，租赁及维修‌‌，打印机加粉，送货上门，质量保障，放心使用。 URL：www.dndyj.cn V/QQ: 908110260 TEL：15O-56O5-8798欢迎来电咨询！ [图片] [图片] 1 、打印机耗材配送安装：硒鼓，墨盒，连供，碳带，碳粉，色带架 / 芯； 2 、打印机硒鼓加粉：激光打印机硒鼓加粉，各品牌复印机加粉，加原装高黑碳粉； 3 、打印机复印机维修：理光、施乐、佳能、惠普、三星、夏普、东芝、柯尼卡、美能达等各类品牌的打印机复印机的维修

万维电脑 2024-12-25

苹果发布多模态模型 Ferret-UI，部分手机 UI 任务超越 GPT-4V

推荐体验

相关资讯

苹果介绍 Ferret-UI 多模态大语言模型：更充分理解手机屏幕内容

Claude 3 惊喜上线：多模态能力比肩GPT-4V

【AI时刻】GPT长眼睛了！史诗级功能悄咪咪发布！— OpenAI发布GPT-4V多模态模型

微软多模态王炸大模型GPT-4V，166页“说明书”重磅发布！

马斯克的首款多模态大模型来了，GPT-4V又被超越了一次

近期资讯

岳冉RFID读写器分体式和一体式各自技术特点和区别

Adobe Camera Raw 17.1RAW图像处理插件（附安装包）

天神之眼无图城市领航开通，全国都能开，比亚迪稳居智驾第一梯队

统一「瓶中树」产品的创新与环保特性

中国人民大学管理学硕士徐嘉祥：浅谈企业如何进行差异化营销

浙江各地市光资源逐月辐照量数据查询

领克明年将推首款大型插混SUV 内部代号L946

第四代CS75PLUS Ultra上市搭配最强2.0T发动机

2025医械最大IPO终于要来了？

合肥瑶海区复印机维修及时上门修打印机维修复印机,合肥打印机耗材齐全

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响