当前位置:首页|资讯

复旦开源:结合YOLO-World与Mamba实现开放词汇检测

作者:3D视觉工坊发布时间:2024-09-18

来源:计算机视觉工坊

添加小助理:CV3d008,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:Mamba-YOLO-World: Marrying YOLO-World with Mamba for Open-Vocabulary Detection

作者:Haoxuan Wang, Qingdong He, Jinlong Peng, Hao Yang, Mingmin Chi, Yabiao Wang

机构:复旦大学、腾讯优图、上海交通大学、中山复旦联合创新中心

原文链接:https://arxiv.org/abs/2409.08513

代码链接:https://github.com/Xuan-World/Mamba-YOLO-World

1. 引言

目标检测作为计算机视觉中的一项基础任务,在自动驾驶、个人电子设备、医疗保健和安全等众多领域发挥着至关重要的作用。传统方法在目标检测方面取得了显著进展。然而,这些模型都是在封闭集数据集上进行训练的,限制了它们对预定义类别(例如,COCO数据集中的80个类别)的检测能力。为了克服这一限制,开放词汇检测(OVD)作为一种新兴任务应运而生,它要求模型能够检测超出预定义类别集的对象。

之前的一些OVD工作尝试利用预训练视觉语言模型(VLMs)的固有图像-文本对齐能力。然而,这些VLMs主要是在图像-文本级别上进行训练的,因此在区域-文本级别上缺乏对齐能力。近期工作,如MDETR、GLIP、DetClip、Grounding DINO、mm-Grounding-DINO和YOLO-World,将OVD重新定义为视觉语言预训练任务,利用传统目标检测器直接在大规模数据集上学习区域-文本级别的开放词汇对齐能力。

根据上述相关工作,将传统目标检测器转换为OVD模型的关键在于实现一种适应于模型现有颈部结构的视觉-语言特征融合机制,如YOLO-World中的VL-PAN和Grounding-DINO中的Feature-Enhancer。作为将YOLO系列融入OVD的开创性模型,YOLO-World非常适合于速度和效率优先的场景部署。尽管如此,其性能仍受到VL-PAN特征融合机制的制约。

具体来说,VL-PAN在文本到图像特征融合流中采用了最大sigmoid视觉通道注意力机制,在图像到文本融合流中采用了多头交叉注意力机制,这导致了几个局限性。首先,由于跨模态注意力机制,两个融合流的复杂度都随着图像大小和文本长度的乘积呈二次方增加。其次,VL-PAN缺乏全局引导的感受野。一方面,文本到图像融合流仅生成一个缺乏像素级空间指导的视觉通道权重向量;另一方面,图像到文本融合流仅允许图像信息单独指导每个单词,无法利用文本描述中的上下文信息。

为解决上述限制,我们引入了Mamba-YOLO-World,这是一种新颖的基于YOLO的OVD模型,采用我们提出的MambaFusion路径聚合网络(MambaFusion-PAN)作为其颈部架构。最近,作为新兴的状态空间模型(SSM),Mamba已证明其能够避免二次复杂度并捕获全局感受野。然而,简单地在Mamba中连接多模态特征会导致O(N+M)的复杂度,该复杂度与连接序列的长度成正比增加,这在OVD的大词汇量情况下尤为成问题。受此启发,我们在MambaFusion-PAN中提出了基于状态空间模型的特征融合机制。我们使用mamba隐藏状态作为不同模态之间特征融合的中介,这带来了O(N+1)的复杂度,并提供了全局引导的感受野。

2. 摘要

开放词汇检测(OVD)旨在检测超出预定义类别集的对象。作为将YOLO系列融入OVD的先锋模式,YOLO世界非常适合优先考虑速度和效率的场景。然而,其颈部特征融合机制导致了二次复杂度和有限的引导感受野,从而影响了其性能。为了解决这些限制,我们提出了曼巴-YOLO-世界,一种新的基于YOLO的OVD模型,采用建议的曼巴融合路径聚合网络(曼巴融合-PAN)作为其颈部架构。具体来说,我们介绍了一种创新的基于状态空间模型的特征融合机制,该机制由并行引导的选择性扫描算法和串行引导的选择性扫描算法组成,具有线性复杂度和全局引导的感受野。它利用多模态输入序列和mamba隐藏状态来指导选择性扫描过程。实验表明,我们的模型在COCO和LVIS基准测试中,在零射击和微调设置方面都优于原始的YOLO世界,同时保持了可比较的参数和失败次数。此外,它以更少的参数和触发器超越了现有的最先进的OVD方法。

3. 效果展示

图1中的可视化结果表明,我们的Mamba-YOLO-World在所有尺寸变体上在准确性和泛化能力方面都显著优于YOLO-World。

4. 主要贡献

我们的贡献可以总结如下:

• 我们提出了Mamba-YOLO-World,这是一种新颖的基于YOLO的OVD模型,采用我们提出的MambaFusion-PAN作为其颈部架构。

• 我们引入了一种基于状态空间模型的特征融合机制,包括并行引导选择性扫描算法和串行引导选择性扫描算法,具有O(N+1)的复杂度和全局引导的感受野。推荐课程:面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)

• 实验表明,我们的模型在保持相当参数和浮点运算次数(FLOPs)的同时,优于原始的YOLO-World,并且以更少的参数和FLOPs超越了现有的最先进OVD方法。

5. 方法

Mamba-YOLO-World 主要基于 YOLOv8进行开发,其模型主干包括 Darknet 骨干网络和 CLIP文本编码器,模型的颈部采用我们提出的 MambaFusion-PAN,模型的头部则包括文本对比分类头和边界框回归头,如图 2 所示。

6. 实验结果

7. 总结 & 未来工作

在本文中,我们提出了用于开放词汇目标检测的 Mamba-YOLO-World。我们引入了一种创新的基于状态空间模型的特征融合机制,并将其集成到 MambaFusion-PAN 中。实验结果表明,Mamba-YOLO-World 在具有可比参数和浮点运算次数(FLOPs)的情况下,性能优于原始的 YOLOWorld。我们希望这项工作能为多模态 Mamba 架构带来新的见解,并鼓励对开放词汇视觉任务进行更深入的研究。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿:具身智能、大模型、Mamba、扩散模型等

除了这些,还有求职硬件选型视觉产品落地、产品、行业新闻等交流群

添加小助理: CV3d008,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

3D视觉知识星球

具身智能、3DGS、NeRF结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真C++、三维视觉python、dToF、相机标定、ROS2机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

▲长按扫码学习3D视觉精品课程

3D视觉模组选型:www.3dcver.com

—  —



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1