当前位置:首页|资讯

ECCV'24开源 | 视觉定位全新方案!打造新SOTA!

作者:3D视觉工坊发布时间:2024-10-29

1. 导读

与对象检测不同,视觉基础处理检测每个文本-图像对的边界框。用于每个文本图像数据的这一个盒子提供了稀疏的监控信号。尽管以前的工作取得了令人印象深刻的结果,但它们对注释的被动利用,即仅使用盒注释作为回归基础事实,导致了次优的性能。在本文中,我们提出了一种新的方法SegVG,它将盒子级别的注释作为分割信号进行传输,从而为视觉基础提供额外的像素级别的监督。具体地,我们提出多层多任务编码器-解码器作为目标基础阶段,其中我们学习一个回归查询和多个分割查询,以分别通过每个解码层中的盒子的回归和分割来基础目标。这种方法允许我们反复利用注释作为盒子级回归和像素级分割的信号。此外,由于主干通常由从单峰任务学习到的预训练参数初始化,并且回归和分割的查询都是静态可学习嵌入,因此在这三种类型的特征之间存在域差异,这削弱了后续的目标基础。为了减少这种差异,我们引入了三重对齐模块,其中查询、文本和视觉标记通过三重注意机制进行三角形更新,以共享相同的空间。在五个广泛使用的数据集上的大量实验验证了我们最先进的(SOTA)性能。

2. 引言

视觉定位旨在基于自由形式的自然语言文本表达,在图像中定位目标对象。这对于众多下游多模态推理系统尤为重要,如视觉问答和图像字幕生成。以往的工作大致可分为三类:两阶段方法、一阶段方法和基于Transformer的方法。两阶段方法和一阶段方法都使用卷积神经网络来进行候选提案的生成和最佳匹配候选的选择。然而,这些方法依赖于复杂的模块,这些模块采用手工设计的技术来执行语言推理和多模态融合。

受Transformer成功的启发,TransVG提出了一种基于Transformer的管道。如图1(a)所示,该管道分别通过DETR和BERT提取视觉和文本特征。为了定位目标,它们使用Transformer编码器融合多模态特征,并结合一个可学习的回归查询,然后通过多层感知器(MLP)解码该查询。为了增强最终的目标定位阶段,后续研究在早期阶段继续使用一些文本到视觉的模块来调制视觉特征,使其与文本特征对齐。例如,QRNet提出了一种查询调制方法,用于在视觉主干网络中提取语言感知的视觉特征。VLTVG引入了一个验证图来激活视觉特征,使其在多模态融合之前与文本特征对齐。

尽管取得了进展,但这些方法对标注的利用并不理想,即仅将框标注用作回归标注,这限制了它们的性能。与物体检测相比,视觉定位因其稀疏的监督信号而呈现出独特的挑战。具体而言,它只为每个文本-图像对提供一个框标签,而同时需要在多模态环境中进行检测。因此,通过将框标注视为分割掩码(框内的像素赋值为1,框外的像素赋值为0),来充分利用框标注至关重要。

在本文中,我们提出了SegVG(见图1(b)),这是一种新方法,它利用框标注内的像素级细节作为分割信号,为视觉定位提供额外的细粒度监督。具体而言,我们提出了多层多任务编码器-解码器作为目标定位阶段,在该阶段,我们学习一个回归查询和多个分割查询,通过在每个解码层分别对框进行回归和分割来定位目标。从分割中得到的置信度分数可以进一步作为Focal Loss的缩放因子,自适应地强调其他具有挑战性的训练样本的损失。这种方法使我们能够迭代地利用标注作为框级回归和像素级分割的信号。此外,模型主干网络的初始参数通常来源于预训练的单模态任务,而用于解码的数据无关静态嵌入导致不同来源的特征之间存在域差异,影响了目标定位的有效性。为了解决这个问题,我们提出了三重对齐模块,通过三重注意力机制实现三角更新过程,从而协调查询、文本和视觉特征的域。因此,我们确保所有特征在同一多模态空间中适应和融合,从而增强了后续的目标定位。

3. 效果展示

视觉基础框架的比较。虚线框表示该模块可能不一定存在。(a)先前的基线方法包括用于目标接地的两个主干和附加变压器层,其中监督回归查询以回归盒子。当前的SOTA方法还采用文本到视觉模块来将视觉特征与文本特征对齐。(b)我们的方法结合了分割查询,其利用像素级的盒子注释来分割目标。此外,我们提出了三重对齐模块来消除查询、文本和视觉特征的领域差异。

4. 主要贡献

我们的贡献如下:

——我们提出了多层多任务编码器-解码器,以最大化利用框标注,并为视觉定位引入了额外的分割格式来进行像素级监督。

——为了消除查询、文本和视觉之间的域差异,我们引入了三重对齐,将这三种特征更新到共享域中,从而促进后续的目标定位。

——我们在五个广泛使用的数据集上进行了大量实验,以展示我们提出的方法相比以往最先进方法的性能优势,并进一步研究了分割输出在实际应用中的可靠性优势。推荐课程:彻底搞懂视觉-惯性SLAM:基于VINS-Fusion。

——本文一旦被接受,我们将发布源代码和检查点,以供未来研究开发。

5. 方法

SegVG:上图包括视觉和文本主干网络。我们提出的三重对齐模块被迭代地插入到中间层中,以消除域差异。下图显示了我们提出的多层多任务编码器-解码器,它采用Transformer编码器-解码器来更新多模态特征并定位目标。在该架构中,我们充分利用框标注作为分割真实值,并将额外的分割任务集成到视觉定位中。此外,分割输出作为Focal Loss因子,允许对回归损失中的困难情况进行自适应强调。M=6,R=6。

6. 实验结果

我们报告了SegVG模型在所有基准数据集上的性能表现。如表1所示,我们的SegVG模型在所有数据集中均表现出优越性。这证明了我们的方法的有效性和泛化能力。值得注意的是,RefCOCO+和RefCOCOg是相对更具挑战性的数据集,因为RefCOCO+的语言表述中不包含位置术语,而RefCOCOg的语言表述相较于其他数据集更长。尽管面临这些挑战,我们的模型在这两个困难的数据集上仍展现出了显著的改进。具体而言,在RefCOCO+上,我们的模型在验证集(val)、测试集A(testA)和测试集B(testB)子集上分别比先前的最优模型(SOTA)高出+2.99%、+3.7%和+2.42%。在RefCOCOg上,我们的模型在验证集-通用(val-g)、验证集-罕见(val-u)和测试集-罕见(test-u)子集上分别比先前的最优模型高出+3.03%、+2.31%和+3.24%。这些结果表明,在三元对齐和多层多任务编码器-解码器的强化下,查询、文本和视觉标记呈三角形更新,共享同一空间,并且模型充分利用边界框作为细粒度的像素级监督,以实现全面的端到端学习。

我们还比较了基于Transformer的模型在参数数量和GFLOPS(十亿次浮点运算)方面的差异,以评估计算成本。如表2所示,SegVG的计算成本处于合理范围内。

7. 总结 & 未来工作

我们提出了一种新的基于Transformer的模型SegVG,用于视觉定位任务。具体而言,我们引入了多层多任务编码器-解码器,以迭代方式充分利用边界框注释,从而纳入像素级监督。此外,我们通过三元对齐模块解决了查询、文本和视觉之间的领域差异问题,以提高后续的目标定位性能。大量实验证明了SegVG的优越性能。此外,我们还探讨了我们的分割输出在现实世界应用中的可靠性优势。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

3D视觉工坊可提供顶会论文的课题如下:




Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1