当前位置:首页|资讯|深度学习

还在用SuperPoint?200+最新特征提取&匹配方案任你挑选!

作者:3D视觉工坊发布时间:2024-02-04

来源:3D视觉工坊

添加v:dddvision,备注:深度学习,拉你入群。文末附行业细分群

0. 写在前面

今天为大家推荐一篇基于深度学习的局部特征提取+匹配的最新综述,将图像匹配方法分为基于检测器和无检测器两大类,关注了传统手工方法和现代深度学习之间的联系,评估了流行数据集和评估指标,介绍了局部特征匹配在结构运动、遥感图像配准和医学图像配准等各个领域的实际应用。

下面一起来阅读一下这项工作~

1. 论文信息

标题:Local Feature Matching Using Deep Learning: A Survey

作者:Shibiao Xu, Shunpeng Chen, Rongtao Xu, Changwei Wang, Peng Lu, Li Guo

机构:北京邮电大学、中国科学院自动化研究所

原文链接:https://arxiv.org/abs/2401.17592

2. 论文题目

基于深度学习的局部特征匹配研究综述

3. 摘要

局部特征匹配在计算机视觉领域广泛应用,涵盖图像检索、3D重建和目标识别等领域。然而,由于视点和光照变化等因素,改进匹配的准确性和鲁棒性仍然面临挑战。近年来,深度学习模型的引入引发了对局部特征匹配技术的广泛探索。这项工作的目标是提供局部特征匹配方法的全面概述。这些方法根据存在检测器的情况分为两个关键部分。基于检测器的类别包括Detect-then-Describe、Joint Detection and Description、Describe-then-Detect以及基于图的技术。相反,不使用检测器的类别包括基于CNN的、基于Transformer的和基于Patch的方法。我们的研究超越了方法论分析,还包括对流行数据集和指标的评估,以便定量比较最先进技术。本文还探讨了局部特征匹配在结构运动、遥感图像配准和医学图像配准等各个领域的实际应用,强调了其在各个领域的多功能性和重要性。最终,我们努力概述该领域面临的当前挑战,并提供未来研究方向,从而为从事局部特征匹配及其相关领域研究的研究人员提供参考。

4. 引言

在图像处理领域,局部特征匹配任务的核心目标是建立不同图像之间的精确特征匹配关系。这涵盖了各种图像特征,如关键点、特征区域、直线、曲线等。在不同图像中建立相似特征之间的对应关系是许多计算机视觉任务的基础,包括图像融合[1, 2, 3, 4, 5]、视觉定位[6, 7, 8, 9]、运动结构(SfM)[10, 11, 12, 13]、同时定位与地图构建(SLAM)[14, 15, 16]、光流估计[17, 18, 19]、图像检索[20, 21, 22]等。由于尺度变换、视点多样性、光照变化、图案重复和纹理变化等因素的影响,同一物理空间在不同图像中的呈现可能存在显著差异。例如,图1直观展示了几种流行的深度学习模型在局部图像匹配任务中的性能。然而,确保在不同图像之间建立精确的对应关系需要克服许多困难和挑战,这些困难和挑战由上述因素引起。因此,在局部特征匹配中追求准确性和可靠性仍然是一个充满复杂性的问题。

在传统图像匹配流程中,该过程可分解为四个基本步骤:特征检测、特征描述、特征匹配和几何变换估计。在深度学习出现之前[23, 24, 25],许多著名的算法主要专注于这个流程中的一个或几个阶段。各种技术致力于特征检测过程[26, 27, 28, 29],而其他则专注于局部执行特征描述任务[30, 31, 32]。此外,某些算法已经设计用于既实现特征检测又实现描述[33, 34, 35, 36, 37, 38]。在特征匹配阶段,传统方法通常依赖于最小化或最大化特定的已建立的度量标准,如平方差和相关性。在几何变换估计阶段,算法通常基于类似于RANSAC [39]的技术,以估计底层的极线几何或单应性变换。传统手工制作的方法和基于学习的方法建立在低级图像特征如梯度和灰度序列之上。尽管在理论上对某些形式的变换具有韧性,但这些技术受到研究人员在任务中施加的固有先验知识的限制。

近年来,在解决局部特征匹配问题方面取得了实质性的进展[40, 41, 42],特别是在应对尺度变化、视点变化和其他多样性形式方面的挑战。图像匹配的现有方法可以分为两大类:基于检测器的方法和无检测器的方法。基于检测器的方法依赖于稀疏分布的关键点的检测和描述,以建立图像之间的匹配。这些方法的有效性在很大程度上取决于关键点检测器和特征描述符的性能,因为它们在整个过程中起着重要的作用。相反,无检测器的方法通过利用图像中普遍存在的丰富上下文信息,避免了独立的关键点检测和特征描述阶段的必要性。这些方法实现了端到端的图像匹配,从而提供了一种独特的机制来处理任务。

图像匹配在图像配准领域中扮演着重要角色,通过可靠的特征匹配集合实现了对变换函数的精确拟合。这使得图像匹配成为图像融合[43]更广泛背景下的重要研究领域。为了有条理地总结局部特征匹配领域的演变并激发创新的研究方向,本文提出了对局部特征匹配最新进展的详尽审查和深入分析,特别强调了深度学习算法的应用。此外,我们重新审视相关数据集和评估标准,并进行了详细的比较分析。我们的调查涉及传统手动方法和现代深度学习技术之间的差距和潜在的弥合。我们强调了这两种方法之间的持续相关性和合作,通过分析传统手动方法和深度学习技术的最新发展。此外,我们关注了多模态图像的新兴焦点,包括专门为多模态图像分析定制的方法。我们的调查还确定并讨论了现有数据集在评估局部特征匹配方法时存在的差距和未来需求,强调了适应多样和动态场景的重要性。顺应当前趋势,我们考察了大型基础模型在特征匹配中的作用。这些模型代表了传统语义分割模型[44, 45, 46, 47, 48]的重大转变,为各种场景和对象提供了卓越的泛化能力。

总的来说,本调查的一些关键贡献可以总结如下:

• 本调查广泛涵盖了关于当代局部特征匹配问题的文献,并详细概述了自2018年以来提出的各种局部特征匹配算法。根据流行的图像匹配流程,我们主要将这些方法分为两大类:基于检测器的方法和无检测器的方法,并全面审查了采用深度学习的匹配算法。

• 我们审查了这些方法在多种现实场景中的应用,包括SfM、遥感图像配准和医学图像配准。这项调查突显了局部特征匹配技术的多才多艺和广泛适用性。

• 我们从相关计算机视觉任务开始,审查了局部特征匹配中涉及的主要数据集,并根据不同任务对其进行分类,以深入研究每个领域内的具体研究需求。

• 我们分析了用于性能评估的各种度量标准,并对关键局部特征匹配方法进行了定量比较。

• 我们提出了一系列挑战和未来研究方向,为该领域的进一步发展提供有价值的指导。

值得注意的是,最初的调查[49, 50, 51]主要侧重于手动方法,因此它们未提供深度学习研究的足够参考。尽管最近的调查[52, 53, 54]已经纳入可训练的方法,但它们未能及时总结过去五年中涌现的大量文献。此外,许多调查局限于该领域内图像匹配的特定方面,例如一些文章只介绍了局部特征的特征检测和描述方法,而没有包括匹配[52],有些专注于文化遗产图像的匹配[55],还有一些只关注医学图像配准[56, 57, 58]、遥感图像配准[59, 60]等。在本调查中,我们的目标是通过评估图像匹配现有方法,特别是最先进的基于学习的方法,提供最新和全面的概述。重要的是,我们不仅讨论了为自然图像应用服务的现有方法,还讨论了特征匹配在SfM、遥感图像和医学图像中的广泛应用。通过详细讨论多模态图像匹配,我们说明了这项研究与信息融合领域的密切联系。此外,我们对最近主流方法进行了彻底的检查和分析,这在现有文献中显然是缺失的。图2展示了局部特征匹配方法的代表性时间轴,提供了关于这些方法演变及其在该领域推动进步方面的关键贡献的见解。

5. 基于检测器的模型

基于检测器的方法长时间以来一直是局部特征匹配的主流方法。许多广泛应用于3D计算机视觉领域[74, 75]的著名手工制作作品,包括SIFT [33]和ORB [35],在这个领域内被广泛采用。这些传统的基于检测器的方法通常包括三个主要阶段:特征检测、特征描述和特征匹配。首先,从图像中提取一组稀疏关键点。随后,在特征描述阶段,使用高维向量对这些关键点进行特征化,这些向量通常设计为概括这些点周围区域的特定结构和信息。最后,在特征匹配阶段,通过最近邻搜索或更复杂的匹配算法建立像素级的对应关系。其中一些著名的算法包括Bian等人提出的GMS(基于网格的运动统计)[76]和Zhang等人提出的OANET(有序感知网络)[77]。GMS通过基于网格的运动统计增强了特征对应关系的质量,简化和加速了匹配,而OANET通过集成空间上下文创新性地优化了两视图匹配,以实现精确的对应关系和几何估计。通常,这是通过比较不同图像之间关键点的高维向量,并根据相似性的程度进行匹配,通常是由向量空间中的距离函数定义的相似性。

然而,在深度学习时代,数据驱动方法的崛起使得像LIFT [78]这样的方法变得流行。这些方法通过比较不同图像之间关键点的高维向量,根据向量空间中的距离函数定义的相似性来识别匹配。这些方法利用卷积神经网络(CNN)提取更稳健和有辨别力的关键点描述符,从而在处理大视角变化和局部特征照明变化方面取得了显著进展。目前,基于检测器的方法可以分为四个主要类别:1. 先检测后描述的方法;2. 联合检测和描述的方法;3. 先描述后检测的方法;4. 基于图的方法。此外,我们根据监督学习的类型进一步细分了先检测后描述的方法,包括全监督方法、弱监督方法和其他形式的监督方法。这一分类在图3中进行了可视化呈现。

5.1 先检测后描述

在特征匹配方法中,稀疏到稀疏的特征匹配采用是相当普遍的。这些方法遵循"先检测后描述"的范式,其中主要步骤涉及关键点位置的检测。然后,检测器从围绕每个检测到的关键点的补丁中提取特征描述符。然后,这些描述符传递到特征描述阶段。通常使用度量学习方法训练此过程,旨在学习一个距离函数,其中相似点在特征空间中靠近,而不相似点则在远处。为了提高效率,特征检测器通常关注小图像区域[78],通常强调低层结构,如角点[26]或斑点[33]。另一方面,描述符旨在捕捉较大补丁中关键点周围更微妙、更高级别的信息。这些描述符以详细和独特的细节为特征匹配提供定义性特征。图4(a)说明了先检测后描述流程的常见结构。

5.1.1 全监督

局部特征匹配领域经历了一场显著的变革,主要是由注释的补丁数据集[79]和深度学习技术的整合推动的。这一变革标志着从传统的手工方法转向更数据驱动的方法,重塑了特征匹配领域的格局。本节旨在追溯这些变革的历史发展,强调这些变革的顺序发展和各种全监督方法之间的相互关系。在这一演变的前沿是卷积神经网络(CNN),它在改革描述符学习过程中发挥了关键作用。通过从原始本地补丁直接进行端到端学习,CNN实现了本地特征的层次结构构建。这种能力使得CNN能够捕捉数据中的复杂模式,从而创建更专业化和独特的描述符,显著增强匹配过程。这种革命性的转变在很大程度上受到创新模型如L2Net [80]的影响,该模型开创性地采用渐进采样策略。L2Net的方法强调了描述符之间的相对距离,同时对中间特征图施加附加监督。这一策略在显著促进了健壮描述符的发展方面起到了重要作用,为描述符学习设定了新的标准。

对于这些以CNN为基础的数据驱动方法的转变不仅提高了本地特征匹配的准确性和效率,而且还在这一领域的研究和创新中开辟了新的途径。随着我们探索该领域的时间推移,我们观察到了从传统到现代的明显增长和改进的轨迹,每种方法都建立在其前身的成功基础上,同时引入了新颖的概念和技术。OriNet [81]提出了一种使用CNN为图像中的特征点分配规范方向的方法,增强了特征点匹配。他们引入了一种Siamese网络[82]训练方法,消除了预定义方向的需求,并提出了一种新颖的GHH激活函数,显示出在多个数据集上特征描述符性能的显著提升。在L2Net的架构原则基础上,HardNet [83]通过专注于度量学习并消除辅助损失项的方式简化了学习过程,为后续模型设定了简化学习目标的先例。DOAP [84]将焦点转向了学习排名制定,优化了最邻近匹配的本地特征描述符,这种方法在特定匹配场景中取得了成功,并影响了后来的模型考虑基于排名的方法。KSP [85]方法以其引入的子空间池化方法而备受瞩目,利用CNN学习不变且有辨别力的描述符。DeepBit [86]提供了一种无监督的深度学习框架,用于学习紧凑的二进制描述符。它将本地描述符的旋转、平移和尺度不变性编码为二进制表示。Bingan [87]提出了一种使用正则化生成对抗网络(GANs)学习紧凑的二进制图像描述符的方法。GLAD [88]通过考虑人体的局部和全局线索解决了人物再识别任务。实施了一个四流CNN框架,生成有辨别力和健壮的描述符。Geodesc [89]通过整合SfM算法的几何约束推进了描述符计算。该方法强调两个方面:首先,利用几何信息构建训练数据,以测量样本的难度,其中难度由同一3D点的像素块之间的变异性和不同点的均匀性定义。其次,设计了一种几何相似性损失函数,促使相同3D点对应的像素块之间更为接近。这些创新使得Geodesc能够在3D重建任务中显著提高描述符的有效性。对于GIFT [90]和COLD [91],前者强调从组特征中提取底层结构信息以构建强大描述符的重要性。通过使用组卷积,GIFT生成既有区别性又对变换群具有不变性的密集描述符。相反,COLD通过多级特征蒸馏网络架构引入了一种新方法。该架构利用ImageNet预训练的卷积神经网络的中间层来包装层次特征,最终提取高度紧凑和健壮的本地描述符。

推进叙述,我们的探索延伸到最近全监督方法的进展,构成了本地特征匹配能力的一个显著增强。这些开创性方法基于之前阐述的基础框架,协同提升和完善支撑该领域的方法。延续增强描述符鲁棒性的趋势,SOSNet [92]通过引入用于描述符学习的二阶相似性正则化项扩展了HardNet。这种增强涉及将二阶相似性约束整合到训练过程中,从而增强了学习健壮描述符的性能。术语"二阶相似性"表示评估训练批次中描述符对之间相对距离一致性的度量。它不仅直接衡量描述符对之间的相似性,还通过考虑它们相对于同一批次内其他描述符对的相对距离来进行度量。Ebel等人 [93]提出了一种基于对数极坐标采样方案的本地特征描述符。这种独特的方法允许在不同尺度上进行关键点匹配,并对遮挡和背景运动的敏感性较小。因此,它有效地利用更大的图像区域以提高性能。为了设计更好的损失函数,HyNet [94]引入了用于三元边缘损失的混合相似性度量,并实施了一个正则化项来约束描述符范数,从而建立了一个平衡而有效的学习框架。CNDesc [95]还研究了L2归一化,提出了一种创新的密集本地描述符学习方法。它使用交叉归一化技术而不是L2归一化,引入了一种规范化特征向量的新方法。Key.Net [96]提出了一个关键点检测器,结合手工设计和学习的CNN特征,并在网络中使用尺度空间表示来在不同层次提取关键点。为了解决关键点检测方法中的不可区分性问题,ALIKE [97]提供了一种基于分数图的可微关键点检测(DKD)模块。与依赖非最大抑制(NMS)的方法不同,DKD可以反向传播梯度并在亚像素级别生成关键点。ZippyPoint [98]基于KP2D [99]设计,引入了一整套加速提取和匹配技术。该方法建议使用二进制描述符归一化层,从而实现生成唯一、长度不变的二进制描述符。

将上下文信息纳入特征描述符是本地特征匹配方法发展的一种新趋势。ContextDesc [100]引入了上下文感知来改进即插即用的本地特征描述符。它通过使用关键点位置、原始本地特征和高级区域特征作为输入来编码几何和视觉上下文。其培训过程的新颖之处在于使用N对损失,这是自适应的且不需要参数调整的。这种动态损失函数可以实现更有效的学习过程。MTLDesc [101]提供了一种解决卷积神经网络领域内困扰的本地性问题的策略。通过引入自适应全局上下文增强模块和多个局部上下文增强模块来实现。通过添加这些非本地连接,它可以有效地学习远距离特征之间的高级依赖关系。在MTLDesc的基础上,AWDesc [102]试图从更大、更复杂的模型(教师)转移知识到更小、更简单的模型(学生)。这种方法利用教师学到的知识,同时使学生能够以更快的计算速度进行计算,从而使模型在准确性和速度之间达到最佳平衡。这些方法对上下文感知的关注强调了在描述本地特征时考虑更多全局信息的重要性。每种方法以稍微不同的方式利用此信息,从而导致多样但潜在互补的方法来应对特征匹配的挑战。

鉴于传统图像特征描述符(如梯度、灰度等)存在的固有局限性,难以处理不同模态图像类型之间的几何和辐射差异[103],越来越多的关注被集中在基于频域的特征描述符上。这些描述符在匹配跨模态图像方面表现出更高的效能。例如,RIFT [104]利用FAST [105]提取相位共振(PC)图上的可重复特征点,随后利用频域信息构建坚固的描述符,以解决多模态图像特征匹配中的挑战。在RIFT的基础上,SRIFT [106]通过建立非线性扩散尺度(NDS)空间进一步完善了这一方法,从而构建了一个多尺度空间,既实现了尺度和旋转不变性,又解决了与RIFT相关的慢推理速度的问题。随着深度学习技术的发展,基于深度的方法在特征提取方面表现出显著的优势。SemLA [107]在其注册和融合过程中使用语义引导。特征匹配仅限于语义感知区域,以提供图像融合任务的最精确的注册效果。

5.1.2 弱监督和其他方法

弱监督学习为模型学习强大特征提供了机会,无需密集注释的标签,为训练深度学习模型的最大挑战之一提供了解决方案。出现了几种弱监督本地特征学习方法,利用相机姿势的易得几何信息。AffNet [108]代表了弱监督本地特征学习的重要进展,专注于学习本地特征的仿射形状。该方法挑战了传统对几何可重复性的强调,表明它对于可靠的特征匹配是不足够的,并强调了基于描述符的学习的重要性。AffNet引入了一个硬负常数损失函数,以提高仿射区域的匹配性和几何精度。这在增强仿射不变性检测器的性能方面已被证明是有效的,特别是在宽基线匹配和图像检索中。该方法强调了开发更有效的本地特征检测器的需要,考虑到描述符的可匹配性和可重复性。GLAMpoints [109]提出了一种半监督的关键点检测方法,从强化学习损失公式中创造性地借鉴见解。在这里,奖励用于根据最终对齐的质量计算检测关键点的重要性。已经注意到该方法显著影响了最终图像的匹配和注册质量。CAPS [110]引入了一种弱监督学习框架,利用图像对之间的相对相机姿势来学习特征描述符。通过使用极线几何约束作为监督信号,他们设计了可微分匹配层和一个由粗糙到精细的架构,从而生成了密集描述符。DISK [111]通过最大化强化学习的潜力,将弱监督学习集成到端到端的基于检测器的管道中,使用策略梯度。将弱监督与强化学习的综合方法可以提供更强健的学习信号并实现有效的优化。[112]提出了一种组对齐方法,利用组等变CNN的能力。这些CNN在提取具有辨别性和旋转不变性的本地描述符方面效率很高。作者使用自监督损失以更好地估计方向和有效的本地描述符提取。使用相机姿势监督和其他技术的弱监督和半监督方法为训练强大的本地特征方法提供了有用的策略,并可能为该领域的更高效和可扩展的学习方法铺平道路。

5.2 联合检测与描述

稀疏局部特征匹配在各种成像条件下确实证明非常有效。然而,在极端变化的情况下,如昼夜变化[113]、不同季节[114]或弱纹理场景[115],这些特征的性能可能会显著恶化。这些限制可能源于关键点检测器和局部描述符的性质。检测关键点通常涉及对图像的小区域进行聚焦,并且可能严重依赖低级信息,如像素强度。这个过程使得关键点检测器更容易受到低级图像统计变化的影响,而这些变化通常受到光照、天气和其他环境因素的影响。此外,尽管在仔细优化各个组件后,尝试单独学习或训练关键点检测器或特征描述符,将它们整合到特征匹配流程中仍可能导致信息丢失或不一致。这是因为对单个组件的优化可能并未充分考虑组件之间的依赖关系和信息共享。为了解决这些问题,提出了联合检测和描述的方法。在这种方法中,关键点检测和描述的任务被整合并在单个模型中同时学习。这可以使模型在优化过程中融合来自两个任务的信息,更好地适应特定任务和数据,并允许通过CNN实现更深层次的特征映射。这种统一的方法可以通过允许检测和描述过程受到更高级别信息的影响,如图像的结构或形状相关特征,来提高任务性能。此外,密集描述符涉及更丰富的图像背景,通常导致更好的性能。图4(b)说明了联合检测和描述流程的常见结构。

基于图像的描述方法采用整个图像作为输入,并利用完全卷积神经网络[116]生成密集描述符,在近年来取得了显著进展。这些方法通常合并检测和描述的过程,从而在两个任务中提高性能。SuperPoint [61]采用自监督方法,同时确定像素级别的关键点位置和它们的描述符。最初,该模型通过对合成形状和图像应用随机单应性进行训练。该方法的关键在于其对真实图像的自我注释过程。该过程涉及通过调整单应性来增强模型与真实世界图像的相关性,并使用MS-COCO数据集进行额外的训练。这些图像的真实关键点通过各种单应性变换生成,并使用MagicPoint模型执行关键点提取。这种策略通过聚合多个关键点热图确保在真实图像上准确确定关键点位置。受Q学习启发,LF-Net [117]预测匹配图像对之间的几何关系,如相对深度和相机姿态,使用现有的SfM模型。它采用非对称梯度反向传播,训练一个网络以检测图像对而无需手动注释。在LF-Net的基础上,RF-Net [118]引入了基于感受野的关键点检测器,并设计了一个通用的损失函数项,称为'邻居掩码',有助于训练补丁选择。Reinforced SP [119]采用强化学习的原理来处理关键点选择和描述符匹配中的离散性。它将特征检测器整合到完整的视觉流程中,并以端到端的方式训练可学习的参数。R2D2 [63]将网格峰值检测与可靠性预测相结合,使用L2-Net架构的密集版本,旨在产生稀疏、可重复且可靠的关键点。D2Net [62]采用了一种联合检测和描述的方法进行稀疏特征提取。与Superpoint不同,它在检测和描述过程之间共享所有参数,并使用联合公式同时优化两个任务。他们的方法中的关键点被定义为深度特征图的通道内和通道间的局部极大值。这些技术巧妙地说明了在统一模型中整合检测和描述任务如何在不同成像条件下实现更有效的学习和更优越的性能。

RoRD [120]提出了一个双头D2Net模型,具有一种对应集成,以处理极端视点变化,结合了普通和旋转鲁棒的特征对应。HDD-Net [121]设计了一个交互可学习的检测器和描述符融合网络,独立处理检测器和描述符组件,并在学习过程中专注于它们的交互。MLIFeat [122]设计了两个轻量级模块,用于关键点检测和描述符生成,利用多层次信息融合用于联合检测关键点和提取描述符。LLF [123]建议利用低级特征来监督关键点检测。它将描述符骨干的单个CNN层扩展为一个检测器,并与描述符一起进行联合学习以最大化描述符匹配。Feature-Booster [124]将描述符增强阶段引入传统的特征匹配流程中。它建立了一个通用的轻量级描述符增强框架,该框架以原始描述符和关键点的几何属性为输入。该框架使用基于MLP的自我增强和基于transformers的交叉增强来增强描述符。ASLFeat [126]通过在多层特征图上使用通道和空间峰值改进了D2Net。它引入了一个精确的检测器和不变描述符,以及多层次连接和可变卷积网络。密集预测框架采用可变卷积网络(DCN)以缓解由于从低分辨率特征图提取关键点导致的限制。SeLF [127]基于Aslfeat架构,利用来自预训练语义分割网络的语义信息。它将学习的对应感知特征描述符与语义特征相结合,从而增强长期定位的局部特征匹配的鲁棒性。最后,SFD2 [128]提出从全局区域(例如建筑物、交通车道)中提取可靠特征,并通过隐含地嵌入高级语义来抑制不可靠区域(例如天空、汽车),从而使模型能够从单个网络中端到端地提取全局可靠特征。

5.3 描述后检测

局部特征提取的一种常见方法是描述后检测流程,首先描述局部图像区域,然后基于这些描述符检测关键点。图4(c)作为描述后检测流程的标准结构进行了说明。

D2D [129]提出了一种称为Describe-to-Detect(D2D)的关键点检测的新框架,强调了特征描述阶段内在信息的丰富性。该框架涉及生成大量密集特征描述符,然后从该数据集中选择关键点。D2D引入了本地深度特征图的相对和绝对显著性测量来定义关键点。由于弱监督无法区分检测和描述阶段之间的损失,PoSFeat [130]提出了一种描述后检测流程的解耦合训练方法,专门设计用于弱监督本地特征学习。该流程将描述网络与检测网络分开,利用相机姿态信息进行描述符学习以增强性能。通过一种新颖的搜索策略,描述符学习过程更熟练地利用相机姿态信息。ReDFeat [131]使用相互加权策略结合多模态特征学习的检测和描述方面。SCFeat [132]提出了一种用于弱监督本地特征学习的共享耦合桥梁策略。通过共享耦合桥梁和交叉归一化层,该框架确保描述网络和检测网络的个体、最佳训练,从而增强描述符的鲁棒性和整体性能。

5.4 基于图的方法

在传统的特征匹配流程中,通过特征描述符的最近邻(NN)搜索建立对应关系,并根据匹配分数或相互NN验证消除异常值。近年来,基于注意力的图神经网络(GNNs)[133]作为获取局部特征匹配的有效手段已经出现。这些方法创建了以关键点为节点的GNNs,并利用来自Transformers的自注意层和交叉注意层在节点之间交换全局视觉和几何信息。这种交换克服了仅依赖于局部特征描述符的挑战。最终结果是基于软分配矩阵生成匹配。图5提供了基于图的匹配的基本架构的全面描绘。

SuperGlue [69]采用注意力图神经网络和最优输运方法来解决部分分配问题。它处理两组兴趣点及其描述符作为输入,并利用自注意和交叉注意来在两组描述符之间交换消息。该方法的复杂度随着关键点数量的增加呈二次增长,这引发了后续工作的进一步探索。SGMNet [70]建立在SuperGlue的基础上,增加了一个Seeding Module,仅处理少量匹配点作为种子。全连接图被舍弃,而是采用稀疏连接图。然后设计了一个种子图神经网络,该网络具有一个注意机制来聚合信息。由于关键点通常与少数点具有强相关性,大多数关键点的邻接矩阵呈稀疏连接。因此,ClusterGNN [71]利用图节点聚类算法将图中的节点分区为多个群集。该策略利用聚类的注意GNN层学习两组关键点及其相关描述符之间的特征匹配,从而训练子图以减少冗余信息传播。MaKeGNN[134]在稀疏注意GNN架构中引入了双边上下文感知和关键点辅助上下文聚合。

受到SuperGlue的启发,GlueStick [135]将点和线描述符合并到一个联合框架中,以进行联合匹配,并利用点对点关系连接来链接匹配图像中的线条。LightGlue [136]为了使SuperGlue在计算复杂性上更具适应性,提出了基于匹配难度动态改变网络深度和宽度的方法。它设计了一个轻量级的置信度分类器,以预测和优化状态分配。DenseGAP [137]设计了一种利用锚点作为稀疏但可靠的先验进行图结构的方法,通过有向边将这些信息传播到所有图像点。HTMatch [138]和Paraformer [139]研究了注意力的应用以进行交互混合,并探索在效率和效果之间取得平衡的体系结构。ResMatch [140]提出了基于残差注意力学习的特征匹配方法,重新定义了相对位置参考和描述符相似性的自我注意和交叉注意作为学习的残差函数。它旨通过经验手段在弥合可解释匹配和过滤流水线与具有不确定性的基于注意力的特征匹配网络之间的差距。

6. 无检测器模型

虽然特征检测阶段能够减少匹配的搜索空间,但在处理极端情况,如涉及大幅度视角变化和无纹理区域的图像对时,使用基于检测的方法仍然存在困难,尽管使用了完美的描述符和匹配方法[141]。另一方面,无检测器方法消除了特征检测器,直接在图像上密集网格中提取视觉描述符以产生密集匹配。因此,与基于检测的方法相比,这些技术可以捕获在图像对之间可重复的关键点。

6.1 基于CNN的方法

在早期,无检测匹配方法通常依赖于使用相关或成本体素的CNNs,以识别潜在的邻域一致性[141]。图6说明了4D对应体素的基本架构。

NCNet [64]分析了图像对之间所有可能对应点的四维空间邻近一致性,获取匹配点而无需全局几何模型。Sparse-NCNet [65]在稀疏相关张量上使用4D卷积神经网络,并利用次流形稀疏卷积显著降低内存消耗和执行时间。DualRC-Net [66]引入了一种创新的方法,以粗到细的方式在图像对之间建立密集像素级对应关系。该方法利用具有Feature Pyramid Network (FPN)-like骨干的双分辨率策略,从粗分辨率特征图生成4D相关张量,并通过可学习的邻域共识模块进行细化,从而增强匹配的可靠性和定位精度。GLU-Net [67]引入了一种全局-局部通用网络,可用于估计几何匹配、语义匹配和光流的密集对应关系。它以自监督的方式训练网络。GOCor [142]提出了一个完全可微分的密集匹配模块,预测两个深度特征图之间的全局优化匹配置信度,并可以集成到最先进的网络中,直接替代特征相关层。PDCNet [68]提出了一个概率深度网络,估计密集图像对图像的对应关系及其相关的置信度估计。它引入了一种架构和改进的自监督训练策略,以实现通用的鲁棒不确定性预测。PDC-Net+ [143]引入了一个设计用于估计密集图像对图像对应关系及其相关的置信度的概率深度网络。他们使用约束混合模型来参数化预测分布,增强处理异常值的建模能力。PUMP [144]将无监督损失与标准自监督损失结合起来,以增强合成图像。通过利用4D相关体积,它利用DeepMatching [145]的非参数金字塔结构来学习无监督描述符。DFM [146]利用预训练的VGG架构作为特征提取器,捕获匹配而无需额外的训练策略,从而展示了从VGG网络的最深层提取的特征的稳健能力。

6.2 基于Transformer的方法

CNN的密集特征感受野可能存在在处理纹理较低的区域或在相似特征表示的关键点之间进行区分时的局限性。相比之下,人类在这些区域进行匹配时往往考虑局部和全局信息。鉴于Transformer在计算机视觉任务中的成功,如图像分类[147]、目标检测[148]和语义分割[149, 150, 151, 152, 153],研究人员探索了将Transformer的全局感受野和远程依赖性融入到局部特征匹配中。已经出现了将Transformer集成到用于局部特征匹配的特征提取网络的各种方法。

考虑到稀疏匹配和密集匹配之间唯一的区别是要查询的点的数量,COTR [154]结合了两种方法的优势。它使用自注意力联合学习两个匹配图像,使用一些关键点作为查询,并通过相应的神经网络递归地在另一幅图像中细化匹配。这种集成将两者合并成一个参数优化问题。ECO-TR [155]致力于通过智能地连接多个Transformer块并在共享的多尺度特征提取网络上逐步细化预测坐标,开发一种端到端模型加速COTR。LoFTR [72]是开创性的,因为它创建了一个以关键点为节点的GNN,利用自注意力层和相互注意力层获取两个图像的特征描述,并在纹理较低的区域生成密集匹配。为了克服LoFTR中缺乏局部注意力交互的问题,Aspanformer [73]提出了一种基于流预测概率建模的不确定性驱动方案,自适应地改变局部注意力跨度以为不同位置分配不同的上下文大小。在这些发展的基础上,SE2-LoFTR [156]在解决特征匹配中的旋转挑战方面取得了显著进展。这种增强涉及通过用可转动的CNN替换其传统的骨干CNN来修改LoFTR模型。这种改变使模型对平移和图像旋转具有等变性,显著增强了其对旋转变化的韧性。基于可转动的CNN的特征提取与矫正平面表面匹配等技术的融合展示了该方法的多功能性和广泛适用性。

为了解决密集匹配方法中存在的许多相似点以及线性Transformer性能的限制,最近的一些工作提出了新颖的方法。Quadtree [157]引入了四叉树注意力,以快速跳过在较高级别的无关区域的计算,将视觉转换的计算复杂度从二次降低到线性。OETR [158]引入了Overlap Regression方法,使用Transformer解码器估计图像中边界框之间的重叠程度。它包含对称中心一致性损失,以确保重叠区域的空间一致性。OETR可以作为预处理模块插入到任何局部特征匹配流水线中。MatchFormer [159]设计了一个分层Transformer编码器和一个轻量级解码器。在层次结构的每个阶段,交叉注意力模块和自注意力模块交替提供最佳组合路径,增强多尺度特征。CAT [160]提出了一种基于自注意机制的上下文感知网络,其中可以沿空间维度进行注意力层的应用以提高效率,也可以沿通道维度进行注意力层的应用以提高准确性和减少存储负担。TopicFM [161]使用主题建模方法对图像中的高级上下文进行编码。通过关注图像中语义相似的区域,提高了匹配的鲁棒性。ASTR [162]引入了Adaptive Spot-guided Transformer,其中包括一个点引导的聚合模块,使大多数像素可以避免受无关区域的影响,同时使用计算的深度信息在细化阶段自适应调整网格的大小。DeepMatcher [141]引入了Feature Transformation Module,以确保从CNN中提取的局部聚合特征平稳过渡到从Transformer中提取的具有全局感受野的特征。它还提出了SlimFormer,该模型使用层次策略建立深度网络,使网络能够在残差块内自适应地吸收信息交换,模拟人类的行为。OAMatcher [163]提出了Overlapping Areas Prediction Module来捕捉共可见区域的关键点,并在它们之间进行特征增强,模拟人类如何从整个图像转移到重叠区域。他们还提出了Matching Label Weight Strategy,生成用于评估真实匹配标签可靠性的系数,使用概率确定匹配标签是否正确。CasMTR [164]提出通过整合级联匹配和NMS检测的新阶段来增强基于Transformer的匹配流水线。

PMatch [165]通过使用成对的掩膜图像建模预文本任务,利用LoFTR模块进行Transformer模块的预训练,增强了几何匹配性能。为了有效利用几何先验,SEM [166]引入了一个结构化的特征提取器,模拟了像素之间的相对位置关系和高度自信的锚点。它还融入了极线注意力和匹配技术,根据极线约束过滤掉无关区域。DKM [167]通过设计一种密集特征匹配方法来解决双视图几何估计问题。DKM提出了一个具有核回归器和嵌入式解码器的强大的全局匹配器,通过应用于堆叠的特征图的大深度核来进行翘曲细化。在此基础上,RoMa [168]通过应用马尔可夫链框架来分析和改进匹配过程,实现了在密集特征匹配方面的显著进展。它引入了两阶段方法:全局一致匹配的粗阶段和用于精确定位的细化阶段。这种方法将初始匹配与细化过程分开,并采用鲁棒的回归损失以提高准确性,从而在匹配性能方面取得了显著的改进,超过了当前的SotA。

6.3 基于Patch的方法

基于Patch的匹配方法通过匹配局部图像区域来增强点对应关系。它涉及将图像划分为补丁,提取每个补丁的描述符向量,然后匹配这些向量以建立对应关系。这种技术适用于大位移,并在各种计算机视觉应用中具有价值。图7说明了基于Patch的匹配方法的一般架构。

Patch2Pix [169] 提出了一种弱监督方法,用于学习在图像对之间保持极端几何变换一致的对应关系。它采用了两阶段的检测-细化策略进行对应关系预测,第一阶段捕捉语义信息,第二阶段处理局部细节。该方法引入了一种新颖的细化网络,利用了来自极端几何变换的弱监督,并输出匹配位置的置信度和异常值拒绝,从而实现了几何一致的对应关系预测。AdaMatcher [170] 解决了在补丁级匹配中应用一对一分配标准引起的几何不一致性问题。它自适应地分配补丁级匹配,并估算图像之间的尺度,以提高在极端情况下密集特征匹配方法的性能。PATS [171] 提出了Patch Area Transportation with Subdivision(PATS),以自监督的方式学习尺度差异。与处理一对一匹配的二分图匹配不同,它能够处理多对多的关系。SGAM [172] 提出了一个分层特征匹配框架,首先基于语义线索执行区域匹配,将特征匹配搜索空间缩小到在图像之间具有显着语义分布的区域匹配。然后,通过几何一致性对区域匹配进行细化,以获得准确的点匹配。

7. 局部特征匹配应用

7.1 运动结构

SfM代表了计算机视觉中的一个基础过程,对于推导摄像机方向、内部参数和体积点云等多样场景图像的信息是不可或缺的。这个过程支持了视觉定位、多视图立体和创新视角合成等努力。SfM的发展轨迹,经过深入的学术研究强调,已经产生了确立的方法论,由Bundler [173] 和COLMAP [12] 这样的先进的开源框架和高级专有软件所体现。这些框架经过精心设计,以确保在处理广阔场景时的精度和可扩展性。

传统的SfM方法依赖于在各种透视图之间分散的稀疏特征点的识别和相关。然而,在缺乏纹理特征的区域,关键点的识别变得困难。Lindenberger等人 [174] 通过精心细化初始关键点并在后期处理中调整点和相机方向,改善了这一困境。所提出的方法通过在初始粗略估计和稀疏局部特征之间巧妙平衡,通过局部精确的密集特征进行微调,从而在具有挑战性的情况下提高了精度。SfM的最新发展趋势已经转向了直接回归姿态 [175, 176] 或采用差分捆绑调整 [177, 178] 的整体方法。这些方法绕过了显式特征相关的挑战,避开了次优特征匹配的困扰。He等人 [179] 提出了一种创新的SfM范式,摒弃了检测器,利用无检测器的匹配器推迟关键点的确定。这一策略巧妙地解决了无检测器匹配器中普遍存在的多视图不一致问题,相对于传统的检测器中心系统,在贫纹理场景中展示出更高的效能。

SfM方法学的发展轨迹在从传统的稀疏特征识别转向复杂的、有时是端到端的密集匹配范式中可见。这些创新方法的整合正在提高在困难场景中的精度和韧性。然而,将这些方法无缝整合到当代SfM系统中仍然是一个复杂的挑战。

7.2 遥感图像配准

在遥感领域,深度学习的出现为多模式遥感图像配准(MRSIR)[43, 180, 181, 182] 带来了革命性的时代,通过与学习为基础的流水线(LBP)[183, 184] 增强了传统的面积和特征为基础的技术。该LBP分化为几种创新方法:将深度学习与传统配准方法结合,通过模态转换弥合多模态差距,以及直接回归转换参数以实现全面的MRSIR框架[60]。伪Siamese网络和生成对抗网络(GANs)等技术在这一进化中发挥了关键作用,有助于管理几何失真和非线性辐射差异[185, 186]。例如,使用条件GANs能够创建伪图像[187],从而提高了类似于NCC [188] 和SIFT [17] 这样的传统方法的精度。在LBP中,已经制定了许多创新的方法和架构。MUNet [181],一种用于学习转换参数的多尺度策略,以及用于尺度特定特征提取的完全卷积网络,是这一创新的典范例子,解决了非刚性MRSIR的挑战[189]。进一步丰富LBP,各种研究努力集中于将由CNNs提取的中高级特征与经典描述符结合起来,克服了传统方法的局限性。例如,Ye等人 [190, 181] 创造了一种新颖的多光谱图像配准技术,采用了CNN和SIFT的融合,大幅提高了配准效果。同样,Wang等人 [191] 开发了一种端到端的深度学习架构,用于识别图像块对和它们的匹配标签之间的映射函数,采用了转移学习以加速训练。Ma等人 [192] 引入了一种使用CNN和局部特征的粗到细的配准方法,通过VGG-16实现深度金字塔特征表示。Zhou等人 [193] 制定了一种基于深度学习的方法,用于匹配合成孔径雷达(SAR)和光学图像,专注于使用浅伪Siamese网络提取多尺度卷积梯度特征(MCGFs)。这种方法有效地捕捉了SAR和光学图像之间的共同之处,超越了手工制作特征的局限性,并减少了对庞大模型参数的需求。Cui等人 [194] 引入了MAPNet,这是一种图像为中心的卷积网络,集成了空间金字塔聚合池化(SPAP)和注意机制,通过嵌入原始图像来提取高级语义信息,利用PCA实现了更精确的匹配精度。

尽管取得了这些进展,数据集构建和方法泛化方面的挑战仍然存在,主要是由于遥感图像的多样性和复杂性[181]。建立全面且代表性的训练数据集,以及为遥感图像精心设计的创新方法,仍然是一个迫切的目标。此外,对于雷达和光学图像的像素级融合的研究相对较少,需要在未来的研究中更多关注[195]。

7.3 医学图像配准

医学图像配准领域随着先进的深度学习技术的整合,在运动估计和2D-3D配准方面经历了显著的演变。这些进展不仅代表了技术的飞跃,而且在各种医学应用中开辟了新的前景[58]。

医学成像中运动估计是配准的一个关键方面,通过深度学习得到了显著改进。无监督的光流和点追踪技术,如Bian等人 [196],Ranjan等人 [197] 和Harley等人 [198] 所阐述的,解决了医学图像数据固有的复杂性,例如患者解剖的变异和通过形变和不可压缩性维持解剖完整性的需求。基于深度学习的方法在不同器官间的运动估计方面表现出效力,从心脏到肺部。例如,应用变分自动编码器模型,如Qin等人 [199] 展示的,通过穿越生物力学上合理的变形流形搜索给定心脏序列的最佳变换,提高了运动跟踪的精度,并更合理地估计了心肌运动和应变,从而增强了运动估计的逼真度和临床可靠性。DeepTag [200] 和DRIMET [201] 展示了在医学成像中,特别是在Tagged-MRI方面,跟踪内部组织运动的复杂方法。这些方法体现了通过先进的无监督学习技术估计密集的3D运动场的能力。在可变形医学图像配准的一次学习方面的最新进展,在特别是应用一次学习到复杂的3D和4D医学数据集方面,这一点显著体现,从而提高了准确性,减少了对大型训练数据集的依赖,拓宽了适用范围。Fechter等人 [202] 引入了一种用于3D和4D数据集的深度运动跟踪的一次学习方法,解决了需要大量训练数据的挑战。他们的方法通过在通道维度中连接不同相位的图像,利用了一种粗糙到精细的U-Net架构。这种方法允许在3D数据集中同时计算正向和反向变换。Zhang等人 [203] 提出了GroupRegNet,这是一种设计用于4D图像配准的一次学习深度学习方法。它采用了隐式模板,有效地减少了偏见和累积误差。GroupRegNet的网络设计简单,其直接配准过程消除了图像分区的需要,从而显著提高了计算效率和准确性。在这一领域的进一步发展中,Ji等人 [204] 提出了一种用于肺部4D-CT图像配准的时空方法。该方法集成了CNN-ConvLSTM混合架构,巧妙地建模了图像的时空运动,并采用了双流方法来处理周期性运动约束。Hybrid Paradigm-based Registration Network(HPRN)[205] 引入了一种用于4D-CT肺部图像配准的无监督学习框架,能够在没有地面真实数据的情况下有效处理大变形。HPRN通过学习多尺度特征、结合先进的损失函数以及避免预处理步骤(如裁剪和缩放)来实现卓越的配准精度。

在介入过程中,特别是在2D图像(如X光、超声波或内窥镜图像)准确叠加到3D术前CT或MR图像的关键组件是2D-3D配准[206]。这个过程对于这些不同维度的准确几何对齐至关重要。传统的2D-3D配准方法依赖于基于图像强度的相似度度量的迭代优化方法。然而,由于问题的非凸性,这些方法常常在初始估计不接近实际解时收敛到错误的解决方案。这加剧了在2D图像上表示3D空间信息的困难,导致配准的歧义性。然而,最近的进展看到了朝着基于深度学习的方法的转变。与传统方法不同,这些方法不需要明确的功能映射,从而可以更稳健地解决配准挑战[208]。在关于2D-3D医学图像配准的最新发展领域,Jaganathan等人 [209] 提出了一种用于X光和CT图像融合的自监督范式。该方法利用模拟的X光投影来促进深度神经网络的训练,最终提高了配准精度和成功率。与此同时,Huang等人 [210] 针对神经学介入设计了一个两阶段框架。这种创新的方法将CNN回归与质心对齐相结合,展示了在实时临床应用中卓越的效能。除了刚性的2D-3D配准,对于非刚性配准的兴趣日益增加,这在颅面测量学、放射治疗中的肺肿瘤跟踪以及全髋关节置换术(THA)中至关重要[211, 212, 213]。深度学习模型,如卷积编码器,已经用于解决非刚性配准的挑战[214, 215]。

医学图像配准中运动估计和2D-3D配准技术的融合解决了参数优化和模糊性方面的关键挑战,提高了医学成像过程的速度和准确性。这一领域的持续演进有望革新诊断和介入程序,使其更加高效、以患者为中心和以结果为导向。有兴趣的读者可以参考详细的综述 [58, 57],了解基于深度学习的医学图像配准方法。

8. 局部特征匹配数据集

本地特征匹配方法通常基于其在下游任务中的有效性进行评估。在本节中,我们将提供对一些最广泛使用的用于评估本地特征匹配的数据集的摘要。我们将这些数据集分为五组:图像匹配数据集、相对姿态估计数据集、视觉定位数据集、光流估计数据集和运动结构数据集。对于每个数据集,我们将提供关于其包含特征的详细信息。

8.1 图像匹配数据集

HPatches [216]基准是图像匹配努力的一个显著标尺。它包含116个场景序列,由视点和亮度的波动区分。在每个场景中,有5对图像,其中第一个图像作为参考点,序列中的后续图像逐渐增加复杂性。该数据集分为两个不同的领域:视点,包括59个序列,标记有显著的视点变化;照明,包括57个序列,标记有照明的显著变化,涵盖自然和人工照明条件。在每个测试序列中,一个参考图像与其余五个图像配对。值得注意的是,根据D2Net的评估方法,通常使用56个具有显著视点变化和52个具有显著照明变化的序列来评估网络的性能。从SuperPoint [61]开始,HPatches数据集也用于评估同态估计任务中本地描述符的性能。

Roto-360 [112]是一个评估数据集,包含360对图像。这些对图像在平面内的旋转范围从0°到350°,间隔为10°。该数据集是通过随机选择和旋转十个HPatches图像生成的,对于评估描述符在旋转不变性方面的性能非常有价值。

8.2 相对姿态估计数据集

ScanNet [217]是一个大规模室内数据集,具有明确定义的训练、验证和测试拆分,包括来自1613个场景的约2.3亿对明确定义的图像。该数据集包括地面实况和深度图像,并包含比HPatches数据集更多的具有重复和弱纹理的区域,因此具有更大的挑战。

YFCC100M [218]是一个庞大的数据集,包含各种旅游地标的互联网图像。它包括1亿个媒体对象,其中约99.2百万为照片,0.8百万为视频,每个媒体对象由多个元数据片段表示,如Flickr标识符、所有者名称、相机信息、标题、标签、地理位置和媒体来源。通常,YFCC100M的一个子集用于评估,包括四个受欢迎的地标图像集,每个包含1000对图像,总共有4000对用于测试集,并遵循[77, 69, 70, 73]中使用的惯例。

MegaDepth [219]是一个专为解决在极端视点变化和重复模式下匹配的挑战性任务而设计的数据集。它包括来自196个不同室外场景的100万对图像,每个图像都有已知的姿态和深度信息,可用于验证室外场景中姿态估计的有效性。作者还使用COLMAP [12]生成了通过稀疏重建和多视图立体计算生成的深度图。

EVD(极端视点数据集)[220]是一个精心策划的数据集,专门用于评估在极端视点变化情况下的双视图匹配算法。它汇集了来自各种公开可用数据集的图像对,这些数据集以其复杂的几何配置而闻名。EVD的创建受到了在视点显著变化的情境中评估匹配方法的必要性的驱使。

WxBS(宽基线立体)[221]解决了宽基线立体匹配领域的更广泛挑战,涵盖了图像采集的多个方面,如视点、照明、传感器类型和视觉变化。该数据集包括37对图像,涵盖城市和自然环境的混合,根据各种复杂因素的存在进行系统分类。WxBS的地面实况是通过手动选择的对应关系建立的,捕捉了在两幅图像中可见的场景部分。WxBS对于评估针对在各种苛刻条件下进行图像匹配的算法是一个至关重要的工具。

8.3 视觉定位数据集

Aachen Day-Night [222]是一个包含4328张白天图像和98张夜晚图像的数据集,用于定位任务。这个基准挑战了白天和夜晚图像之间的匹配,使其成为一个具有挑战性的数据集。Aachen Day-Night v1.1 [9]是Aachen Day-Night数据集的更新版本,包括6697张白天图像和1015张查询图像(白天824张,夜晚191张)。大照明和视角变化的存在使得这个数据集在工作中具有挑战性。

InLoc [115]是一个室内数据集,包括9972个RGB-D图像;其中329个RGB图像被用作查询,用于测试长期室内视觉定位算法的性能。这个数据集由于其大规模(约10,000张图像涵盖两个建筑物)、数据库图像与查询图像之间的视点和/或照明差异以及场景的时间变化而提供了各种挑战。除此之外,InLoc数据集还提供了来自3D扫描仪的大量深度图。

RobotCar-Seasons(RoCaS)[223]是一个具有26121个参考图像和11934个查询图像的挑战性数据集。该数据集呈现了各种环境条件,包括雨、雪、黄昏、冬季和郊区不足光照等。这些因素使特征匹配和视觉定位的任务变得困难。

LaMAR [224]致力于增强现实(AR)中的定位和制图技术,引入了一个新的现实AR场景的基准。该数据集是使用AR设备在各种环境中捕捉的,包括室内和室外场景,其中有动态对象和多样化的光照。它包含来自HoloLens 2和iPhone/iPad等设备的多传感器数据流(图像、深度、IMU等),覆盖了超过45,000平方米。LaMAR的地面实况流水线可以自动将AR轨迹与激光扫描对齐,强大地处理来自异构设备的数据。这一基准对于评估AR特定的定位和制图方法至关重要,并强调了在AR设备中考虑无线电信号等其他数据流的重要性。LaMAR为AR提供了一个真实而全面的数据集,指导未来在视觉定位和制图方向的研究。

8.4 光流估计数据集

KITTI [225]是一个在城市交通场景中收集的图像匹配数据集,有2012和2015两个版本。KITTI-2012包含194对训练图像和195对测试图像,分辨率为1226×370,而KITTI-2015包含200对训练图像和200对测试图像,分辨率为1242×375。该数据集包含使用激光扫描仪获得的稀疏地面实况差异。KITTI-2012的场景相对简单,而KITTI-2015数据集由于其动态场景和复杂情境而具有挑战性。

8.5 运动结构数据集

ETH [226]是一个设计用于通过一组可用的2D图像构建3D模型的描述符评估的数据集。在D2Net之后,评估了三个中等大小的数据集:马德里大都市、根达曼广场和伦敦塔 [227]。ETH数据集包括各种相机和条件,提供了一个具有挑战性的基准,以比较不同方法的性能。

ETH3D [228]是一个全面的用于多视图立体算法的基准。该数据集涵盖了室内和室外各种场景,通过高分辨率的DSLR相机和同步的低分辨率立体视频捕获。这个数据集的独特之处在于其高空间和时间分辨率的结合。从自然环境到人工环境,它引入了对详细的3D重建的新挑战,重点关注手持移动设备在立体视觉场景中的应用。ETH3D提供多样的评估协议,涵盖高分辨率多视图立体、视频数据上的低分辨率多视图,以及两视图立体。因此,它是在密集3D重建领域推动研究的宝贵资源。

8.6 数据集的缺口和未来需求

尽管上述数据集为评估本地特征匹配方法提供了宝贵的资源,但仍然存在一些重要的缺口需要解决。一个主要的缺口是缺乏模拟极端环境条件的数据集。虽然RoCaS [223]等数据集的存在为环境条件的变化提供了一些变化性,包括多样的天气情景和照明条件,但仍需要专门关注具有挑战性的天气情景,如大雨、雾或雪。这些条件对于在气候敏感区域的应用至关重要。

另一个缺口是对高度动态环境的有限代表。当前的数据集,包括广泛使用的HPatches [216],虽然在视点和照明变化方面很全面,却不足以捕捉拥挤的城市区域或快速移动场景的复杂性。这一限制对于需要在密集人口区域进行实时监控和监视的应用非常重要。能够模仿这些环境动态的数据集对于在这些情境中推进特征匹配技术至关重要。此外,值得注意的是,目前缺乏针对特定应用领域的数据集,如水下或航拍图像。这些领域具有独特的特征和挑战,这些挑战在ETH [226]或Aachen Day-Night [222]等数据集中未得到解决。在这些领域的专门数据集将对海洋生物学或基于无人机的监测等领域的研究和发展非常有价值。

总的来说,尽管现有的数据集在本地特征匹配领域有着显著贡献,但明显需要更多专门的数据集。这些数据集应致力于填补现有的缺口,满足各种应用领域不断发展的需求,从而促进本地特征匹配技术的进一步发展。

9. 性能评估

9.1 匹配模型的度量

图像匹配

可重复性 [229, 52]。用于比较两幅图像的可重复性度量是通过取在图像之间找到的匹配特征区域的数量,除以两幅图像中任一图像中找到的特征区域的较小数量来计算的,然后乘以100以将结果表示为百分比。这种定量评估对于衡量特征检测器在不同几何变化下的一致性至关重要。

在这里,M表示两幅图像之间匹配特征区域的数量,F1表示在第一幅图像中检测到的特征区域的总数,而F2是在第二幅图像中检测到的特征区域的总数。

匹配得分(M-score)[61, 78]。M-Score通过计算在两幅图像的重叠区域中正确匹配的特征与总检测到的特征的平均比率来量化特征检测和描述流水线的有效性。均匀匹配准确度(MMA)[62]用于衡量在考虑多个像素误差阈值的情况下在图像对之间执行特征匹配的效果。它表示在考虑多个像素误差阈值的情况下图像对中正确匹配的平均百分比。该度量仅考虑相互最近邻的匹配,如果使用提供的单应性估计的重投影误差低于给定的匹配阈值,则认为匹配是正确的。特征和匹配[62]评估特征描述符的性能。特征指的是每幅图像检测到的平均特征数量,而匹配表示成功特征匹配的平均数量。正确关键点百分比(PCK)[110]指标通常用于衡量密集匹配的性能。它涉及从图像网格上提取第一幅图像的关键点,并在完整的第二幅图像中找到它们的最近邻。如果查询点的预测匹配在地面实况匹配的某个像素阈值内,则被视为正确。

**单应性估计 **

角度正确度指标通常用于评估特征匹配算法的性能。该度量涉及估计两幅图像之间的单应性变换ˆH,并将变换后的角点与使用地面实况单应性H计算的角点进行比较[61]。为了确保在生成不同数量的匹配的方法之间进行公平比较,基于图像用ˆH和H扭曲的角点误差计算了正确性标识符。如果四个角的平均误差小于指定的像素阈值ε,通常在1到10像素之间变化,那么估计的单应性被视为正确。一旦确定了估计的单应性的正确性,就使用曲线下面积(AUC)度量评估图像之间的角度误差。该度量计算了在各种阈值下错误累积曲线下的面积,量化匹配的准确性和稳定性。AUC值表示整体匹配性能,数值越高表示性能越好。

**相对姿态估计 **

在评估估计的相机姿态时,典型方法涉及测量旋转和平移中的角度偏差[230]。在该方法中,如果角度偏差小于某个阈值,则认为旋转或平移被正确估计,该阈值下的平均准确度将被报告。帧之间的间隔用dframe表示,其中较大的值表示对匹配的图像对更具挑战性。对于不同阈值的姿态误差,最常见的度量包括AUC、匹配准确度、匹配得分。其中,通常将平移误差和角度误差的最大值标记为姿态误差。

**视觉定位 **

评估过程通常遵循视觉定位基准2中概述的一般评估方案。自定义特征被用作系统的输入,然后使用像COLMAP [12]这样的框架执行图像配准过程。最后,计算在预定义容差范围内成功定位的图像的百分比。为了报告评估方法的性能,通常使用在不同阈值下姿态误差的累积AUC。

光流估计

用于光流估计的评估指标包括平均端点误差(AEPE)、流离群比例(Fl)和正确关键点百分比(PCK)[231, 67]。AEPE被定义为估计值与地面真实对应图之间的平均欧几里得距离。具体而言,它量化了在目标图像内有效像素上计算的预测流场与实际流场之间的欧几里得差异。Fl评估了所有像素中离群值的平均百分比,其中离群值被定义为超过地面真实流超过3个像素或5%的流错误。PCK阐述了在指定阈值(以像素为单位)内的估计点ˆxi与相应地面真实点xi之间正确匹配的百分比。

运动中的结构

如ETH [226]规定的评估框架所描述,使用一系列关键度量来严格评估重建过程的忠实度。这些度量包括注册图像的数量,它作为重建的全面性的指标,以及稀疏点度量,它提供了关于场景呈现深度和复杂性的见解。此外,图像中的总观察量对于相机和三角测量过程至关重要,表示稀疏点的已确认图像投影。平均特征轨道长度,指示每个稀疏点的已验证图像观察的平均计数,对确保精确校准和强大三角测量起着关键作用。最后,平均投影误差是衡量重建准确性的关键指标,包括在束调整中观察到的累积投影误差,受输入数据的深入程度以及关键点检测的精度的影响。

在ETH3D [228]中,关键指标对于评估各种SfM方法的有效性至关重要。姿势误差在不同阈值下的AUC用于评估多视图相机姿势估计的准确性。该指标反映了估计的相机姿势在与地面真实的关系中的精度。在不同距离阈值下,准确度和完整度百分比评估3D三角测量任务。准确度表示在距离地面真实点一定距离内的重建点的比例,而完整度则测量在重建点云中充分表示的地面真实点的百分比。

9.2 定量性能

在本节中,我们根据第6.1节提供的评估分数分析了几种关键方法的性能,包括先前讨论的各种算法以及额外的方法。我们将它们在流行的基准测试中的表现编制成表格,其中数据来源要么是原始作者提供的,要么是其他作者在相同的评估条件下报道的最佳结果。此外,一些出版物可能会报告在非标准基准/数据库上的性能,或仅涉及流行基准测试集的某些子集。我们不呈现这些方法的性能。

以下表格提供了几种主要基于DL的匹配模型在不同数据集上的表现摘要。表1突显了HPatches [216]测试集,采用LoFTR方法[72]使用的评估协议。性能指标基于角点误差距离的AUC,分别为3、5和10个像素。表2关注ScanNet [217]测试集,遵循SuperGlue [69]测试协议。报告的指标是姿势AUC误差。表3集中在YFCC100M [218]测试集上,采用RANSAC-Flow [232]协议。此外,还报告了姿势mAP(平均精度)值。如果姿势估计的最大度误差在翻译或旋转方面超过阈值,则将其视为离群值。表4突显了MegaDepth [219]测试集。姿势估计AUC误差报告,遵循SuperGlue [69]评估方法。表5和表6分别强调了Aachen Day-Night v1.0 [222]和v1.1 [9]测试集,在局部特征评估轨道和完整视觉定位轨道上。表7关注InLoc [115]测试集。报告的指标包括在特定错误阈值下正确定位的查询百分比,遵循HLoc [233]流程。表8强调了KITTI [225]测试集。报告了2012和2015版本的KITTI数据集的AEPE和流离群比例Fl。表9关注ETH3D [228],展示了各种SfM方法的详细评估,如在DetectorFreeSfM [179]中报道。此评估全面考察了这些方法在AUC、准确度和完整度三个关键度量上的有效性。

10. 挑战与机遇

深度学习为基于图像的局部特征匹配带来了显著的优势。然而,仍然存在一些需要解决的挑战。在以下章节中,我们将探讨我们认为将为图像局部特征匹配算法的进一步发展提供有价值的动力的潜在研究方向。

10.1 高效的注意力和变压器

对于局部特征匹配,可以考虑将变压器集成到GNN模型中,将任务构建为涉及两组特征的图匹配问题。为了改进更好的匹配器构建,变压器中的自注意力和交叉注意力层通常用于在节点之间交换全局视觉和几何信息。除了由匹配检测器生成的稀疏描述符之外,还已经探索了将自注意力和交叉注意力直接应用于由CNN提取的特征图,并以一种由粗到细的方式生成匹配[69, 72]。然而,当处理大量关键点时,变压器中基本矩阵乘法的计算成本仍然较高。近年来,人们已经努力提高变压器的效率,并尝试并行计算两种类型的注意力,不断降低复杂性同时保持性能[70, 71, 140, 139]。未来的研究将进一步优化注意力机制和变压器的结构,旨在在减少计算复杂性的同时保持高匹配性能。这将使局部特征匹配方法在实时和资源受限的环境中更加高效和适用。

10.2 自适应策略

近年来,在局部特征匹配的研究中取得了显著的进展[136,162,170,171,73]。对于延迟敏感的应用程序,可以将自适应机制纳入匹配过程中。这允许根据视觉重叠和外观变化等因素调制网络的深度和宽度,实现对匹配任务难度的精细控制。此外,研究人员提出了各种创新方法来解决尺度变化等问题。一个关键挑战是如何根据图像尺度变化自适应调整裁剪网格的大小,以避免匹配失败。通过自适应的分配策略,结合增强匹配过程中从粗到细逐渐提高对应质量的自适应裁剪策略,还可以缓解在补丁级别特征匹配中的几何不一致性。另一方面,基于匹配难度可以自适应调整注意力跨度,在不同位置实现可变大小的自适应注意力区域。这使得网络能够更好地适应不同位置的特征,同时捕捉上下文信息,从而提高匹配性能。

总的来说,局部特征匹配中的适应性研究为未来的发展提供了广阔的前景和机会,同时提高了在内存和计算方面的效率。随着各个领域需求和挑战的不断出现,预计自适应机制将在局部特征匹配中扮演越来越重要的角色。未来的研究可能进一步探索更精细的自适应策略,以实现更高效和准确的匹配结果。

10.3 弱监督学习

局部特征匹配领域不仅在完全监督的情境下取得了显著进展,而且在弱监督学习领域也显示出潜力。传统的完全监督方法依赖于密集的地面实况对应标签。近年来,研究人员开始关注自监督和弱监督学习,以减少对精确标注的依赖。像SuperPoint [61]这样的自监督学习方法在通过虚拟同轴变换生成的图像对上进行训练,取得了令人鼓舞的结果。然而,在复杂情境下,这些简单的几何变换可能效果不佳。弱监督学习已经成为局部特征学习领域的一个研究重点[110,111,169,130,132]。这些方法通常将弱监督学习与描述-检测流水线相结合,但直接使用弱监督损失会导致性能明显下降。一些方法仅依赖于涉及相对相机姿态的解决方案,通过对极损失学习描述符。弱监督方法的局限性在于难以区分由描述符和关键点引入的错误,以及准确区分不同的描述符。

为了克服这些挑战,设计精心的解耦训练流程已经出现,其中描述网络和检测网络分别训练,直到获得高质量的描述符。Chen等人[244]提出了使用卷积神经网络进行特征形状估计、方向分配和描述符学习的创新方法。他们的方法为每个特征建立了标准的形状和方向,通过消除已知特征匹配关系的需求,实现了从监督到自监督学习的过渡。他们还在描述符学习中引入了'弱匹配查找器',增强了特征外观的变异性并提高了描述符的不变性。这些进展标志着弱监督学习在特征匹配中取得了显著的进展,特别是在涉及大幅度视角和观察方向变化的情况下。

这些弱监督方法为局部特征学习开辟了新的前景和机会,使模型能够在更大更多样的数据集上进行训练,从而获得更广泛的描述符。然而,这些方法仍然面临一些挑战,例如有效利用弱监督信号和解决描述符和关键点的不确定性。在未来,弱监督学习在局部特征匹配领域的发展可能集中于更精细的损失函数设计,更好地利用弱监督信号,以及更广泛的应用领域。探索弱监督学习与传统完全监督方法结合的机制有望提高在复杂场景中局部特征匹配的性能和泛化能力。

10.4 基础分割模型

通常,语义分割模型在如Cityscapes [245]和MIT ADE20k [246]等数据集上训练,提供基本的语义信息,并在增强特定环境的检测和描述过程中发挥关键作用 [127, 128]。

然而,诸如SAM [247]、DINO [248]和DINOv2 [249]等大型基础模型的出现标志着人工智能的新时代。传统的分割模型在其特定领域表现出色,而这些基础模型引入了更广泛、更多才多艺的方法。它们在庞大而多样的数据集上进行了广泛的预训练,使它们具有显著的零样本泛化能力,使其能够适应各种场景。例如,SAMFeat [42]展示了SAM在"任何场景"中分割"任何东西"的能力,通过其丰富的、与类别无关的语义知识引导局部特征学习。通过提炼细粒度的语义关系并专注于边缘检测,SAMFeat在局部特征描述和准确性方面取得了显著的增强。类似地,SelaVPR [250]展示了如何有效地调整DINOv2模型,使用轻量级适配器解决视觉地点识别(VPR)中的挑战,通过熟练地匹配局部特征而无需进行广泛的空间验证,从而简化检索过程。

展望开放世界的场景,这些大型基础模型提供的多才多艺的泛化能力呈现出令人振奋的前景。它们理解和解释各种场景和对象的能力远远超过传统分割网络的范围,为在多样化和动态环境中进行特征匹配的进展铺平了道路。总之,尽管传统语义分割网络的贡献仍然无法估量,但大型基础模型的整合提供了一个互补且广泛的方法,对于推动特征匹配的可实现范围,特别是在开放世界的应用中至关重要。

10.5 不匹配去除

图像匹配涉及在两幅描绘共享对象或场景的图像之间建立可靠连接,由于过程的组合性质和离群值的存在,这带来了复杂的挑战。直接匹配方法,如点集配准和图匹配,通常面临着可怕的计算要求和不稳定的性能。因此,采用分两步的方法,首先利用SIFT、ORB和SURF [33, 35, 34]等特征描述符进行初步匹配构建,然后应用局部和全局几何约束,已成为一种普遍的策略。然而,这些方法在处理多模态图像或视点和照明变化显著的情况时会遇到一些约束 [251]。

异常值拒绝方法的发展对克服不匹配消除的挑战至关重要,正如马等人 [252]所强调的那样。传统方法,以RANSAC [39]为代表,及其变体如USAC [253]和MAGSAC++ [254]等,显著提高了异常值拒绝的效率和准确性。然而,这些方法受到计算时间限制和其在非刚性背景下的适用性的限制。针对非刚性场景的特定技术,如ICF [255],在处理几何扭曲方面显示出了有效性。将深度学习整合到不匹配去除中的策略的出现开辟了增强特征匹配的新途径。例如,易等人 [236]引入了上下文归一化(CNe),这是一个创新概念,通过有效区分局内点和离群值,转变了宽基线立体对应。在此基础上,孙等人 [256]开发了Attentive Context Networks(ACNe),通过Attentive Context Normalization改善置换等变数据的处理,从而在相机姿态估计和点云分类方面取得了显著的进展。张等人 [77]提出了OANet,这是一种通过分层聚类方法精确定位两视图对应关系并支持几何估计的新方法。赵等人 [257]引入了NM-Net,这是一个专注于使用特定于兼容性的挖掘选择特征对应关系的分层网络,在各种场景中表现出色。Shape-Former [258]通过混合神经网络创新地解决了多模态和多视图图像匹配的挑战,专注于通过混合神经网络实现稳健的不匹配去除。借助CNN和Transformer,Shape-Former引入了ShapeConv进行稀疏匹配学习,在离群值估计和共识表示方面表现出色。像LSVANet [259]、LGSC [251]和HCA-Net [182]这样的最新发展在更有效地区分局内点和离群值方面表现出了希望。这些方法利用深度学习模块进行几何估计和特征对应分类,标志着对传统方法的进步。

主要的是,发展更广义和强大的学习方法,适用于处理各种场景,包括非刚性变换和多模态图像,是必要的。其次,需要将传统几何方法和现代学习方法的优点融合在一起的方法。这种混合方法有望通过充分利用两个范例的优势,提供卓越的性能。最后,针对不匹配去除定制的创新学习架构和损失函数的探索可能会在特征匹配中揭示新的前景,提高计算机视觉系统的整体韧性和精度。

总的来说,不匹配的消除仍然是局部特征匹配的一个关键但艰巨的方面。传统和基于学习的方法的不断发展揭示了解决现有限制和在计算机视觉应用中开启新潜力的有希望的轨迹。

10.6 深度学习和手工制作的类比

图像匹配领域正在经历深度学习和传统手工制作技术的独特融合。这种融合在最近的半密、无检测器方法中采用了经典方法的基本元素,例如"SIFT"管线。这一趋势的显著例子包括Bellavia等人 [260]的Hybrid Pipeline(HP)、HarrisZ+ [261]和Slime [262],它们在与最先进的深度方法相媲美的能力方面表现出色。

HP方法集成了手工制作和基于学习的方法,保持了对摄影测量测量旋转不变性的关键性。它具有新颖的Keypoint Filtering by Coverage(KFC)模块,增强了整体管道的准确性。HarrisZ+代表了经典的Harris角检测器的演进,经过优化以与现代图像匹配组件协同工作。它产生了更有区别性和准确放置的关键点,与当代深度学习模型的结果密切一致。Slime采用了一种新颖的策略,用局部重叠平面建模场景,将局部仿射逼近原理与全局匹配约束相结合。这种混合方法呼应了传统图像匹配过程,挑战深度学习方法的性能。这些进展表明,尽管像LoFTR和SuperGlue这样的深度学习方法取得了显著进展,但手工制作技术的基本原则仍然至关重要。将经典概念与现代计算力的整合,如在HP、HarrisZ+和Slime中所见,将导致强大的图像匹配解决方案。

这些方法为未来研究提供了潜在的途径,融合各种方法,弥合图像匹配中传统和现代方法之间的差距。

10.7 利用几何信息

面对贫纹理、遮挡和重复模式等挑战时,传统的局部特征匹配方法可能表现不佳。近年来,研究人员已经开始专注于更好地利用几何信息,以增强在存在这些挑战的情况下局部特征匹配的效果。一些研究 [166, 167, 143, 165] 表明,利用几何信息对局部特征匹配具有重要的潜力。通过更准确地捕捉像素之间的几何关系,并将几何先验与图像外观信息结合起来,这些方法可以提高在复杂场景中匹配的鲁棒性和准确性。然而,这个方向对于未来的发展提出了许多机会和挑战。首先,如何更深入地建模几何信息以更好地解决涉及大位移、遮挡和无纹理区域的场景仍然是一个关键问题。其次,提高置信度估计的性能以产生更可靠的匹配结果也是一个值得研究的方向。

几何先验的引入将特征匹配从仅考虑外观相似性扩展到考虑对象在不同视点下的行为。这一趋势表明,密集匹配方法在应对大位移和外观变化所带来的挑战方面具有潜力。这也意味着几何匹配领域的未来发展可能越来越关注密集特征匹配,利用几何信息和先验知识来提高匹配性能。最后,这也暗示着未来几何匹配领域的发展可能更加注重密集特征匹配,借助几何信息和先验知识来提高匹配性能。

11. 总结

在过去的五年里,我们对基于深度学习模型的局部特征匹配相关算法进行了调查。这些算法在各种局部特征匹配任务和基准测试中表现出色。它们可以广泛分为基于检测器的模型和无检测器的模型。特征检测器的应用减小了匹配的范围,并依赖于关键点检测和特征描述的过程。另一方面,无检测器方法直接从原始图像中捕获更丰富的上下文以生成密集匹配。随后,我们讨论了现有局部特征匹配算法的优势和劣势,介绍了流行的数据集和评估标准,并总结了这些模型在一些常见基准测试中的定量性能分析,如HPatches、ScanNet、YFCC100M、MegaDepth和Aachen Day-Night数据集。最后,我们探讨了局部特征匹配领域在未来几年可能遇到的开放挑战和潜在研究方向。我们的目标不仅是增强研究人员对局部特征匹配的理解,还要激发和引导这一领域未来的研究努力。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1