复旦开源：结合YOLO-World与Mamba实现开放词汇检测

作者：3D视觉工坊发布时间：2024-09-18

来源：计算机视觉工坊

添加小助理：CV3d008，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：Mamba-YOLO-World: Marrying YOLO-World with Mamba for Open-Vocabulary Detection

作者：Haoxuan Wang, Qingdong He, Jinlong Peng, Hao Yang, Mingmin Chi, Yabiao Wang

机构：复旦大学、腾讯优图、上海交通大学、中山复旦联合创新中心

原文链接：https://arxiv.org/abs/2409.08513

代码链接：https://github.com/Xuan-World/Mamba-YOLO-World

1. 引言

目标检测作为计算机视觉中的一项基础任务，在自动驾驶、个人电子设备、医疗保健和安全等众多领域发挥着至关重要的作用。传统方法在目标检测方面取得了显著进展。然而，这些模型都是在封闭集数据集上进行训练的，限制了它们对预定义类别（例如，COCO数据集中的80个类别）的检测能力。为了克服这一限制，开放词汇检测（OVD）作为一种新兴任务应运而生，它要求模型能够检测超出预定义类别集的对象。

之前的一些OVD工作尝试利用预训练视觉语言模型（VLMs）的固有图像-文本对齐能力。然而，这些VLMs主要是在图像-文本级别上进行训练的，因此在区域-文本级别上缺乏对齐能力。近期工作，如MDETR、GLIP、DetClip、Grounding DINO、mm-Grounding-DINO和YOLO-World，将OVD重新定义为视觉语言预训练任务，利用传统目标检测器直接在大规模数据集上学习区域-文本级别的开放词汇对齐能力。

根据上述相关工作，将传统目标检测器转换为OVD模型的关键在于实现一种适应于模型现有颈部结构的视觉-语言特征融合机制，如YOLO-World中的VL-PAN和Grounding-DINO中的Feature-Enhancer。作为将YOLO系列融入OVD的开创性模型，YOLO-World非常适合于速度和效率优先的场景部署。尽管如此，其性能仍受到VL-PAN特征融合机制的制约。

具体来说，VL-PAN在文本到图像特征融合流中采用了最大sigmoid视觉通道注意力机制，在图像到文本融合流中采用了多头交叉注意力机制，这导致了几个局限性。首先，由于跨模态注意力机制，两个融合流的复杂度都随着图像大小和文本长度的乘积呈二次方增加。其次，VL-PAN缺乏全局引导的感受野。一方面，文本到图像融合流仅生成一个缺乏像素级空间指导的视觉通道权重向量；另一方面，图像到文本融合流仅允许图像信息单独指导每个单词，无法利用文本描述中的上下文信息。

为解决上述限制，我们引入了Mamba-YOLO-World，这是一种新颖的基于YOLO的OVD模型，采用我们提出的MambaFusion路径聚合网络（MambaFusion-PAN）作为其颈部架构。最近，作为新兴的状态空间模型（SSM），Mamba已证明其能够避免二次复杂度并捕获全局感受野。然而，简单地在Mamba中连接多模态特征会导致O(N+M)的复杂度，该复杂度与连接序列的长度成正比增加，这在OVD的大词汇量情况下尤为成问题。受此启发，我们在MambaFusion-PAN中提出了基于状态空间模型的特征融合机制。我们使用mamba隐藏状态作为不同模态之间特征融合的中介，这带来了O(N+1)的复杂度，并提供了全局引导的感受野。

2. 摘要

开放词汇检测(OVD)旨在检测超出预定义类别集的对象。作为将YOLO系列融入OVD的先锋模式，YOLO世界非常适合优先考虑速度和效率的场景。然而，其颈部特征融合机制导致了二次复杂度和有限的引导感受野，从而影响了其性能。为了解决这些限制，我们提出了曼巴-YOLO-世界，一种新的基于YOLO的OVD模型，采用建议的曼巴融合路径聚合网络(曼巴融合-PAN)作为其颈部架构。具体来说，我们介绍了一种创新的基于状态空间模型的特征融合机制，该机制由并行引导的选择性扫描算法和串行引导的选择性扫描算法组成，具有线性复杂度和全局引导的感受野。它利用多模态输入序列和mamba隐藏状态来指导选择性扫描过程。实验表明，我们的模型在COCO和LVIS基准测试中，在零射击和微调设置方面都优于原始的YOLO世界，同时保持了可比较的参数和失败次数。此外，它以更少的参数和触发器超越了现有的最先进的OVD方法。

3. 效果展示

图1中的可视化结果表明，我们的Mamba-YOLO-World在所有尺寸变体上在准确性和泛化能力方面都显著优于YOLO-World。

4. 主要贡献

我们的贡献可以总结如下：

• 我们提出了Mamba-YOLO-World，这是一种新颖的基于YOLO的OVD模型，采用我们提出的MambaFusion-PAN作为其颈部架构。

• 我们引入了一种基于状态空间模型的特征融合机制，包括并行引导选择性扫描算法和串行引导选择性扫描算法，具有O(N+1)的复杂度和全局引导的感受野。推荐课程：面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码)

• 实验表明，我们的模型在保持相当参数和浮点运算次数（FLOPs）的同时，优于原始的YOLO-World，并且以更少的参数和FLOPs超越了现有的最先进OVD方法。

5. 方法

Mamba-YOLO-World 主要基于 YOLOv8进行开发，其模型主干包括 Darknet 骨干网络和 CLIP文本编码器，模型的颈部采用我们提出的 MambaFusion-PAN，模型的头部则包括文本对比分类头和边界框回归头，如图 2 所示。

6. 实验结果

7. 总结 & 未来工作

在本文中，我们提出了用于开放词汇目标检测的 Mamba-YOLO-World。我们引入了一种创新的基于状态空间模型的特征融合机制，并将其集成到 MambaFusion-PAN 中。实验结果表明，Mamba-YOLO-World 在具有可比参数和浮点运算次数（FLOPs）的情况下，性能优于原始的 YOLOWorld。我们希望这项工作能为多模态 Mamba 架构带来新的见解，并鼓励对开放词汇视觉任务进行更深入的研究。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群

添加小助理: CV3d008，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

3D视觉知识星球

具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

▲长按扫码学习3D视觉精品课程

3D视觉模组选型：www.3dcver.com
— 完 —

近期资讯

全场马力最大！ 840马力陕汽德龙X6000牵引车亮相2024汉诺威商用车车展
汉诺威车展是目前全世界最大的商用车车展，在这里汇聚了全球顶流的商用车品牌和产品，像全场最大马力车型也基本上就是在斯堪尼亚和沃尔沃之间来回角逐，但是在2024年的IAA现场，中国卡车来了一次干翻欧卡，勇夺第一的马力之战。 [图片] 没错，本次IAA的全场最大马力就是陕汽德龙X6000，以840马力的实力力压群雄！而且这辆陕汽德龙X6000的配置，也是堪称天花板的存在。金闪闪外观套件加持，自带电子后视镜： [图片] 会场上展出的陕汽德龙X6000是带有原厂金闪闪外观套件的车型，在车顶位置装有五颗射灯和原厂L
卡车生活家昨天

电源模块是什么，有什么优点？
在以往的视频和文章中我们为大家介绍了许多电源模块的测试方案与项目，有很多小伙伴觉得很高大上，但是又太过深入，很多人也不太了解电源模块是什么。那么，今天就为大家系统地介绍一下电源模块以及它的应用和优势。电源模块其实就是是一种直接焊接在电路板上的电源转换装置，它主要的作用就是把交流电和直流电进行相互转换，按照转换方式一般会分为AC-DC和DC-DC两种模式，可以为专用集成电路、数字信号处理器、微处理器、存储器、现场可编程门阵列及其他数字或模拟负载提供供电。 [图片] 一个完整的电源模块一般是由输入整流滤波
纳米软件昨天

西藏自治区城乡历史文化保护传承图片展在青海开幕
2024年9月10日，由西藏自治区住房和城乡建设厅组织，中国民族建筑研究会青藏高原地域民族建筑专业委员会承办的“西藏自治区城乡历史文化保护传承图片展”于第二十三届中国民族建筑研究会学术年会召开之际，在青海乐都举办揭幕仪式。第十三届全国人大民族委员会副主任委员、国家民委原副主任丹珠昂奔，全国政协常委、青海省政协副主席王绚，国家文物局原副局长、中国文物学会会长顾玉才，原国家民委办公厅主任、规划财务司司长，中国民族建筑研究会会长李春林和住建部建筑文化中心主任尚少岩等领导观展。2021年，中共中央办公厅和国务院办
中国民族建筑研究会昨天

人造血管整体水渗透性测试仪|水渗透性测试仪
人造血管水渗透性测试仪是一款专为评估血管植入物(如人工血管、血管支架等)在应用环境下的水渗透性能而设计的精密检测仪器。以下是威夏科技关于该测试仪的详细介绍：一、测试仪概述人造血管水渗透性测试仪通过模拟人体血液压力环境，观察和测量水分子透过血管植入物材料的速率和数量，以评估其防水性能和持久性。这种测试对于确保血管植入物在临床应用中的安全性和有效性至关重要。 [图片] 二、测试原理测试仪的测试原理主要基于压力差导致的水流通过程。在给定压力下，测量穿过给定面积人工血管样品的水的流量，以此评估血管植入物的水
鲁尔接头测试仪昨天

布里斯托大学回国认可度如何？专业选对，含金量翻倍！
前言:这是一篇来自公众号达恩留学的文章，帮助留学生了解布里斯托大学的回国认可度。布里斯托大学，在人文、社会科学、自然科学、工程学等多个学科领域，布里斯托大学都取得了卓越的成就。在布里斯托大学，学生可以获得全面的学术支持。学校提供丰富的课程选择，包括本科、研究生和博士课程等。那么，布里斯托大学的回国认可度如何呢？一起来了解一下吧！一、就业方面1、布里斯托大学在国内外都享有很高的声誉，其毕业生在就业市场上具有很高的竞争力。该大学的专业设置广泛，涵盖了人文、社会科学、自然科学、工程等多个领域，因此，布里斯托大学
达恩留学昨天

电源模块综合测试系统灵活检测多种型号电源产品
在高标准的军工行业中，VPX电源的稳定性和可靠性是不可或缺的。电源测试是VPX稳定可靠的保障，然而在测试过程中往往存在一些难题，致使测试工作难以开展，比如测试系统难以满足多型号VPX电源产品检测、系统无法实现与ERP/MES等系统的数据共享等。本文将探讨NSAT-8000电源模块综合测试系统如何帮助解决这些难题。 [图片] NSAT-8000电源模块综合测试系统旨在解决电源测试中遇到的难题，让电源测试更快更智能。用NSAT-8000系统检测VPX电源，可以轻松解决以上测试挑战，快速完成检测： 1. 系统的
纳米软件昨天

视创云展元宇宙展厅有哪些功能？有何应用场景？

视创云展作为行业领先的3D数字化场景营销平台，专注于帮助企业迅速构建集多样化营销活动于一体的元宇宙空间。通过整合虚拟展厅、数字人互动、音视频通话以及弹幕聊天等创新功能，为企业打造极具沉浸感的体验环境，并提供高效的线上营销手段，助力企业实现营销目标。视创云展元宇宙营销方案01、虚实结合场景实景扫描：线下实体场景1:1扫描真实还原。虚拟技术：全景图+三维技术，AI重绘场景模型。立体展示：高性能的模型3D展示引擎+720°漫游展示。02、3D数字化营销3D导览系统：三维立体可视化导览，自定义配置导览路径。内嵌云

视创云展昨天

实验室信息管理系统（LIMS）的主要优势及白码LIMS的应用
在高度复杂且数据密集型的实验室环境中，实验室信息管理系统（LIMS）已成为提升效率、确保数据准确性和可追溯性的关键工具。LIMS不仅优化了实验室的日常运营，还促进了跨职能团队的协作与沟通，从而推动了整体科研或检测质量的提升。本文将深入探讨LIMS的主要优势，并特别推荐白码LIMS作为行业内的佼佼者。一、提升实验室技术人员与样品检测人员的工作效率LIMS为实验室技术人员和样品检测人员提供了强大的支持，特别是在样品管理和数据处理方面。通过自动化的样品追踪系统，技术人员可以迅速定位样品的当前状态、位置及测试进度
白码科技昨天

一键生成印章：4款抠公章软件，办公小白必备

在日常办公中，有时需要将某些文件或图片中的公章抠出来，那么如何一键生成印章呢？尤其对于办公小白来说更是个难题。别担心！今天为大家推荐4款超实用的抠公章软件，让你一键搞定印章抠图，轻松提升工作效率！1. 酷雀AI智能抠图 - 高效精准，智能识别酷雀AI智能抠图是一款基于人工智能的抠图软件，利用强大的AI算法，能自动识别图片中的公章，并进行精准分离，节省了手动操作的时间。同时，酷雀的抠图效果非常自然，不会损坏印章的细节。操作步骤：下载并打开酷雀AI智能抠图，点击【印章抠图】；点击“上传图片”，选择包含印章的文

嗨格式昨天

张强/李博权，最新JACS！
第一作者：Xi-Yao Li 通讯作者：张强，李博权通讯单位：清华大学，北京理工大学论文速览锂硫电池被认为是下一代储能技术。具有低多硫化锂(LiPS)溶剂化能力的弱溶剂化电解液可以保护锂阳极并提高循环稳定性。然而，阴极LiPS动力学不可避免地恶化，导致严重的阴极极化和有限的能量密度。本论文探讨了多硫化锂（LiPS）在弱溶剂化电解液中的动力学，旨在实现实用的锂硫（Li-S）电池。研究发现，弱溶剂化电解液虽然能够保护锂负极并提高电池的循环稳定性，但同时也会导致严重的负极极化和有限的能量密
MS杨站长昨天

复旦开源：结合YOLO-World与Mamba实现开放词汇检测

3D视觉模组选型：www.3dcver.com
— 完 —

推荐体验

相关资讯

玉米病害检测：基于深度学习的YOLO模型的应用【玉米病害检测实战】

深度学习驱动的车牌识别检测：技术探索与实现【车牌识别检测实战】

基于深度学习的人脸检测与识别系统设计与实现

目标检测研究方向——开放域目标检测

基于深度学习的图像目标检测的设计与实现

近期资讯

全场马力最大！ 840马力陕汽德龙X6000牵引车亮相2024汉诺威商用车车展

电源模块是什么，有什么优点？

西藏自治区城乡历史文化保护传承图片展在青海开幕

人造血管整体水渗透性测试仪|水渗透性测试仪

布里斯托大学回国认可度如何？专业选对，含金量翻倍！

电源模块综合测试系统灵活检测多种型号电源产品

视创云展元宇宙展厅有哪些功能？有何应用场景？

实验室信息管理系统（LIMS）的主要优势及白码LIMS的应用

一键生成印章：4款抠公章软件，办公小白必备

张强/李博权，最新JACS！

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

复旦开源：结合YOLO-World与Mamba实现开放词汇检测

3D视觉模组选型：www.3dcver.com— 完 —

3D视觉模组选型：www.3dcver.com
— 完 —