当前位置:首页|资讯

预训练模型再也无需微调!分类、检测、分割任务的涨点神器!

作者:3D视觉工坊发布时间:2024-09-19

来源:3D视觉工坊

添加小助理:CV3d008,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 这篇文章干了啥?

预训练与微调范式能够在同模态任务之间实现令人印象深刻的迁移学习,这一点已在计算机视觉(CV)和自然语言处理(NLP)中得到验证。预训练模型通常由资源充足且经验丰富的团队使用大量干净数据进行训练。卓越的预训练模型能够帮助硬件和数据受限的团队节省大量训练成本,并在新任务上训练出表现良好的深度模型。在大模型时代,微调预训练模型的效率成为了一个重要问题。全面微调已在CV任务中广泛应用并取得巨大成功,该过程在训练期间同时调整预训练主干网络中的所有参数以及额外的特定任务头/颈部。许多令人瞩目的CV研究成果通过预训练与全面微调将视觉任务的极限推向了新的高度。然而,全面微调现在仍然是微调视觉任务的最佳方式吗?

除了全面微调外,Delta调谐最近在NLP和CV任务中引起了关注。Delta调谐源自NLP,它仅调整主干网络的一部分或额外的轻量级结构以实现高效的迁移学习。Delta调谐方法通常固定大部分主干参数,并在简单任务(包括NLP中的分类任务和CV任务)上实现与全面微调相当甚至更好的性能。VPT是首个探索视觉分类任务上提示调谐潜力的方法。LoRand则在密集预测任务上开创了适配器调谐的先河,并缩小了Delta调谐与全面微调在视觉任务上的性能差距。然而,现有方法在视觉识别任务(包括语义分割和实例分割)上仍无法超越全面微调的性能。

为了挑战全微调在计算机视觉(CV)中的主导地位,我们提出了Mona-tuning,这是一种基于多认知视觉适配器(Mona)的新型微调范式。我们分析了最新研究,并总结了现有视觉适配器中存在的两个问题。

首先,现有CV适配器的设计遵循了自然语言处理(NLP)中的线性适配器。然而,视觉任务处理的是视觉信号,这与语言信号显著不同,并具有独特的二维卷积操作。我们的实验表明,基于卷积的滤波器可以更好地将从预训练模型中获取的视觉知识迁移到其他任务上,因此我们提出了一种实用的基于卷积的视觉任务适配器。

其次,大多数现有适配器使用单个线性层来压缩上游特征。先前的研究表明,模型在不同滤波器尺度下对特征具有不同的认知能力。因此,我们在适配器的降维层之后采用了多个卷积滤波器,以增强适配器的认知能力。

我们在大量具有代表性的视觉任务上验证了Mona-tuning的通用性和优越性,包括图像分类、目标检测、语义分割、实例分割和面向目标检测。我们采用在ImageNet-22k上训练的SwinTransformer系列作为预训练模型。广泛的实验表明,所提出的方法在简单的图像分类任务和复杂的视觉任务上均优于传统的全微调范式。例如,在COCO数据集上,Mona-tuning比全微调高出1%的mAP。这些结果表明,全微调可能不再是视觉任务的最佳选择。据我们所知,Mona是唯一一种在语义分割、实例分割和面向目标检测方面超越全微调的基于适配器的微调方法。

下面一起来阅读一下这项工作~

1. 论文信息

标题:5%>100%: Breaking Performance Shackles of Full Fine-Tuning on Visual Recognition Tasks

作者:Dongshuo Yin, Leiyi Hu, Bin Li, Youqun Zhang, Xue Yang

原文链接:https://arxiv.org/abs/2408.08345

代码链接:https://github.com/leiyi-hu/mona

2. 摘要

预训练与微调可以提升视觉任务中的迁移效率和性能。最近的增量调参(delta-tuning)方法为视觉分类任务提供了更多选择。尽管这些方法取得了成功,但现有的视觉增量调参技术仍未能在如目标检测和分割等挑战性任务上超越全微调的上限。为了找到全微调的一个有竞争力的替代方案,我们提出了多认知视觉适配器(Mona)调参方法,这是一种新颖的基于适配器的调参方法。首先,我们在适配器中引入了多个面向视觉的滤波器,以增强其处理视觉信号的能力,而以前的方法主要依赖于面向语言的线性滤波器。其次,我们在适配器中添加了缩放归一化层,以调节视觉滤波器输入特征的分布。为了充分展示Mona的实用性和通用性,我们在多个具有代表性的视觉任务上进行了实验,包括在COCO数据集上的实例分割、在ADE20K数据集上的语义分割、在Pascal VOC数据集上的目标检测、在DOTA/STAR数据集上的方向目标检测,以及在三个常用数据集上的图像分类。令人振奋的实验结果表明,Mona在所有这些任务上的表现均超越了全微调,并且是唯一一个在上述各种任务上表现优于全微调的增量调参方法。例如,与全微调相比,Mona在COCO数据集上实现了1%的性能提升。综合结果表明,与全微调相比,Mona调参方法更适合保留和利用预训练模型的能力。我们将公开提供代码。

3. 效果展示

图1展示了所提出方法在具有挑战性的实例分割和语义分割任务上的优越性。

4. 主要贡献

我们的贡献可以概括为以下三个方面:

• 我们证明了基于适配器的微调可以在视觉任务上超越全微调,并且以更少的新参数获得更好的性能。推荐课程:国内首个基于面结构光的高反射物体重建方法课程(相位偏折术)。

• 我们提出了Mona-tuning,这是一种基于多认知视觉适配器(Mona)的新型且实用的训练范式。Mona采用视觉友好的滤波器来优化传统的线性适配器,并通过多个认知角度提高视觉预训练知识的传递效率。

• 大量的实验表明,Mona-tuning在具有代表性的视觉任务上优于全微调和其他最新技术,包括图像分类、目标检测、语义分割、实例分割和面向目标检测。

5. 基本原理是啥?

左图:提出的Mona调参方法。我们在每个SwinBlock的MSA和MLP之后添加了Mona。所提出的方法固定了预训练层的参数,并更新了Mona的参数。右图:Mona的详细结构。Mona在下投影之前有一个缩放LayerNorm层。下投影之后是一个多认知卷积滤波器组和一个聚合滤波器。我们在Mona内部的四个位置添加了跳跃连接,以增强其适应能力。Mona使得基于适配器的微调范式在典型的视觉任务中全面超越了全微调。

6. 实验结果

7. 总结 & 未来工作

本文提出了一种新颖的视觉微调方法,即多认知视觉适配器(Mona)调参,该方法有效提高了视觉微调的效率和性能。全面的实验表明,所提出的Mona在包括实例分割、语义分割、目标检测、图像分类和方向目标检测在内的代表性任务上,优于传统的全微调范式和其他增量调参方法。在大模型时代,全微调不再是视觉任务的最优选择。我们希望Mona调参能够提高大模型的知识迁移效率,并在更多视觉任务上带来性能突破。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

3D视觉工坊提供35个顶会论文的课题如下:

1、基于环境信息的定位,重建与场景理解

2、轻是级高保真Gaussian Splatting

3、基于大模型与GS的 6D pose estimation

4、在挑战性遮挡环境下的GS-SLAM系统研究

5、基于零知识先验的实时语义地图构建SLAM系统

6、基于3DGS的实时语义地图构建

7、基于文字特征的城市环境SLAM

8、面向挑战性环境的SLAM系统研究

9、特殊激光传感器融合视觉的稠密SLAM系统

10、基于鲁棒描述子与特征匹配的特征点法SLAM

11、基于yolo-world的语义SL系统

12、基于自监督分割的挑战性环境高斯SLAM系统

13、面向动态场景的视觉SLAM系统研究

14、面向动态场景的GS-SLAM系统研究

15、集成物体级地图的GS-SLAM系统

16、挑战场景下2D-2D,2D-3D或3D-3D配准问题

17、未知物体同时重建与位姿估计问题类别级或开放词汇位姿估计问题

18、位姿估计中的域差距问题

19、可形变对象(软体)的实时三维重建与非刚性配准

20、机器人操作可形变对象建模与仿真

21、基于图像或点云3D目标检测、语义分割、轨迹预测.

22、医疗图像分割任务的模型结构设计

23、多帧融合的单目深度估计系统研究

24、复杂天气条件下的单目深度估计系统研究高精度的单目深度估计系统研究

25、基于大模型的单目深度估计系统研究

26、高精度的光流估计系统多传感器融合的单目深度估计系统研究

27、基于扩散模型的跨域鲁棒自动驾驶场景理解

28、水下图像复原/增强

30、Real-World图像去雾(无监督/物理驱动)

31、LDR图像/视频转HDR图像/视频

32、光场图像增强/复原/超分辨率

33、压缩后图像/视频的增强/复原

34、图像色彩增强(image retouching)

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿:具身智能、大模型、Mamba、扩散模型等

除了这些,还有求职硬件选型视觉产品落地、产品、行业新闻等交流群

添加小助理: CV3d008,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

3D视觉工坊官网:www.3dcver.com

包括但不限于:具身智能、3DGS、NeRF结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真C++、三维视觉python、dToF、相机标定、ROS2机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光等。除此之外还包括结构光相机、手持扫描仪、高精度标定板,无人机等硬件和一对一论文辅导!






Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1