当前位置:首页|资讯

港大开源!8个数据集排名第一!UniMatch V2:突破语义分割的极限

作者:3D视觉工坊发布时间:2024-10-16

0. 论文信息

标题:UniMatch V2: Pushing the Limit of Semi-Supervised Semantic Segmentation

作者:Lihe Yang, Zhen Zhao, Hengshuang Zhao

机构:香港大学、上海AI Lab

原文链接:https://arxiv.org/abs/2410.10777

代码链接:https://github.com/LiheYoung/UniMatch-V2

1. 摘要

半监督语义分割旨在从廉价的无标记图像中学习丰富的视觉知识,以增强语义分割能力。在最近的工作中,UniMatch通过放大弱到强一致性正则化的实践极大地改进了它的先例。后续工作通常遵循类似的管道,并提出各种微妙的设计。尽管取得了进步,但奇怪的是,即使在这个众多强大视觉模型的繁荣时代,几乎所有的SSS作品仍然坚持1)使用过时的ResNet编码器和小规模ImageNet-1K预训练,以及2)在简单的Pascal和Cityscapes数据集上进行评估。在这项工作中,我们认为,有必要将SSS的基线从基于ResNet的编码器切换到更有能力的基于ViT的编码器(例如,DINOv2 ),这些编码器针对海量数据进行了预训练。对编码器的简单更新(即使使用2倍的参数)比精心设计的方法能带来更大的改进。基于这一竞争基准,我们推出了升级和简化的UniMatch V2,继承了V1从弱到强一致性的核心精神,但需要更少的培训成本,并始终提供更好的结果。此外,目睹Pascal和Cityscapes上逐渐饱和的性能,我们呼吁应该关注更具挑战性的复杂分类基准,如ADE20K和COCO数据集。

2. 引言


语义分割通过提供像素级别的类别预测,在场景理解中发挥着基础性作用。然而,学习一个高效的语义分割模型需要大量的密集标注。例如,在仅有19个类别的Cityscapes数据集中,标注一张图片大约需要1.5小时。这一限制极大地阻碍了在没有足够标注的情况下将先进模型部署到关键应用中。因此,为了减轻人工标注者的负担并降低标注成本,半监督语义分割(SSS)正日益受到关注。SSS旨在使用一小部分有标注的图像进行模型训练,并充分利用更多的无标注图像。近期最具代表性的工作之一是Segment Anything,它设计了一个半监督数据引擎,该引擎可以从小规模的人工标注逐渐扩展到自动生成的大规模伪标注。这种方法具有普遍性,可应用于多种场景。在本研究中,我们特别关注近年来被广泛研究的半监督语义分割任务,该任务涵盖了自然图像理解、医学图像分析、遥感解译等多个领域。

SSS的核心问题是如何有效利用无标注图像。现有工作大多遵循伪标注(也称为自训练)的方法论。模型首先从有标注的图像中获得初步的语义分割能力,然后为无标注的图像分配伪标注(即模型预测),以扩展可用的训练样本。这种伪标注流程可以离线(即多阶段)或在线(即端到端)进行。在离线流程中,只有当模型在有标注的图像上得到充分训练后,才会进行伪标注步骤。相比之下,对于在线流程,模型在每个训练迭代中为采样的无标注批次预测伪标注。从训练一开始,模型就在人工标注的图像和伪标注的图像上联合进行优化。过去几年,离线和在线路线图都取得了很大发展。

回溯到三年前,ST++表明,只要为无标注图像注入适当的强数据增强,一个简单的离线自训练流程确实优于之前的在线方法。尽管这种离线策略可以确保伪标注的质量,但它不够优雅,需要三个独立的阶段。鉴于此,UniMatch重新审视了由FixMatch在半监督分类中首次简化并推广的弱到强一致性正则化。作为一种优雅的在线自训练框架,FixMatch在弱增强(例如裁剪)的干净图像上估计伪标注,并使用这些标注来监督相应强增强(例如颜色抖动)图像的训练。为了选择可靠的伪标注进行学习,它预先定义了一个置信度阈值,并排除不满足该标准的模型预测。尽管FixMatch方法简单且提出于五年前,但UniMatch表明,如果配备强空间增强(即CutMix),FixMatch仍然是SSS中极具竞争力的基线。它显著优于2023年之前所有精心设计的方法。

FixMatch通过在具有挑战性的强增强无标注图像上进行训练来利用丰富的视觉知识。然而,强增强仅限于输入空间,即仅对原始图像应用颜色和空间畸变。这阻止了模型在更广泛的增强空间下追求不变表示。因此,为了进一步推动FixMatch中弱到强一致性的精神,UniMatch采用了一个额外的特征级增强流作为输入级流的补充。它发现,在中间特征上应用最简单的通道级Dropout效果最佳。此外,为了充分探索原始输入级增强空间,它在输入级设计了双流增强策略。两个强增强图像通过随机数据增强池从其共享的弱增强版本中联合采样。它们以两个并行流的形式输入模型进行训练。通过特征级增强和双流增强这两个关键实践,UniMatch显著提高了FixMatch的性能。由于其极大的简洁性和易于复现的强大结果,SSS中的许多后续工作直接在UniMatch或由其复现的更基础的FixMatch上构建其框架。推荐课程:(第二期)彻底搞懂基于LOAM框架的3D激光SLAM:源码剖析到算法优化。

然而,在检查了SSS中的最新工作后,我们注意到它们的方法变得越来越复杂。更重要的是,即使有了这些精心设计的模块,性能通常也仅在Pascal和Cityscapes等数据集上提升了近0.5%。我们可以预见,如果我们继续沿着这条路走下去,该领域未来的工作将很难改进当前的最优结果(SOTA)。因此,它们将因“非SOTA”而难以发表。这将极大地阻碍新思想或新框架的蓬勃发展。作为一个基础研究课题,SSS的发展可以为现实世界中的计算机视觉(CV)应用如何利用无标注数据提供有价值的见解和指导。因此,我们认为迫切需要重新探索未来SSS研究的新的有意义的路线图。

3. 效果展示

不同预训练编码器下各种方法的性能(左上角图例)。在ResNet-101主干网络下,以往的工作很难进一步提升最佳结果。但是,在保持方法不变的情况下,仅通过简单更新主干网络(ResNet-101 → DINOv2-S → DINOv2-B),UniMatch的性能就得到了显著提升。

4. 方法

从FixMatch(a)到我们之前的UniMatch V1(b),再到我们当前的UniMatch V2(c)的演进示意图。FixMatch使用弱增强图像的预测来监督相应的强增强图像。基于FixMatch,UniMatch V1引入了一个单独的特征级增强(即Dropout)流和一个额外的图像级增强流。我们的UniMatch V2比V1更简洁且更强大,它将图像级和特征级增强统一到了一个流中,并提出了互补Dropout来构建更好的双视图。

算法1中提供了我们UniMatch V2的类似PyTorch的伪代码。它在概念上实现起来很简单,但同时又非常有效。

5. 实验结果

6. 总结 & 未来工作

在本研究中,我们提出了UniMatch V2,以加强我们之前用于半监督语义分割的V1框架。我们将先前过时的ResNet编码器更新为功能最强大的DINOv2编码器。我们进行了全面的实验,以便未来的研究能够在这个新的基准测试中轻松与我们进行比较。在技术上,我们将图像级和特征级增强统一到了一个流中,并进一步设计了一种互补Dropout,通过构建更好的双可学习视图来充分利用双流实践。因此,我们的UniMatch V2在所有先前的工作中表现显著优异。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊可提供顶会论文的课题如下:





Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1