ECCV'24开源 | 万能重定位！通过图像片段检索的视觉位置识别

作者：3D视觉工坊发布时间：2024-10-08

0. 论文信息

标题：Revisit Anything: Visual Place Recognition via Image Segment Retrieval

作者：Kartik Garg, Sai Shubodh Puligilla, Shishir Kolathaya, Madhava Krishna, Sourav Garg

机构：Indian Institute of Science、International Institute of Information Technology、University of Adelaide

原文链接：https://arxiv.org/abs/2409.18049

代码链接：https://github.com/anyloc/revisit-anything

1. 摘要

准确识别重游地点对于嵌入代理的定位和导航至关重要。这要求视觉表现清晰，尽管摄像机视点和场景外观有很大变化。现有的视觉地点识别管道对“整个”图像进行编码并搜索匹配。这给匹配从不同摄像机视点拍摄的同一地点的两幅图像带来了根本性的挑战:“重叠部分的相似性可能被不重叠部分的不相似性所支配”。我们通过编码和搜索“图像片段”而不是整个图像来解决这个问题。我们建议使用开集图像分割将图像分解成“有意义的”实体(即事物和东西)。这使我们能够创建一个新的图像表示，作为连接一个片段与其相邻片段的多个重叠子图的集合，称为超片段。此外，为了有效地将这些超片段编码成紧凑的向量表示，我们提出了一种新的特征聚合的分解表示。我们发现，检索这些部分表征比典型的基于整幅图像的检索具有更高的识别召回率。我们基于片段的方法称为SegVLAD，在各种基准数据集上建立了一种新的最先进的位置识别，同时适用于通用和专用图像编码器。最后，我们通过在对象实例检索任务上评估我们的方法，展示了我们的方法“重访任何东西”的潜力，该任务通过识别特定于一个地点的目标对象的共同目标，桥接了两个不同的研究领域:视觉地点识别和对象-目标导航。

2. 引言

视觉位置识别（VPR）是实体智能体实现自主定位和导航的重要能力。VPR的主流解决方案是将图像编码为全局向量，并检索相似向量作为粗略定位假设。因此，近十年来，研究人员一直致力于学习/微调图像编码器，以便生成对表观、视角和杂乱背景具有不变性的全局描述符。另一方面，关于局部描述符（点/像素级）的文献众多，这些描述符主要与层次化VPR中的几何重排序相关。在局部描述符和全局描述符之间，存在多种使用区域/块、线/面、物体（事物/物品）和分割区域来表示图像的方法。然而，这些方法仍然只旨在改进基于全局描述符的粗略检索或基于局部特征匹配的重排序。本文中，与传统基于检索的VPR不同，我们探索了一种替代方案：通过编码分割区域而不是整个图像来进行检索。这尤其得益于近期开放集图像分割领域的进展，其可以有意义地将一个地点解构为“事物”（和/或“物品”）。因此，我们将VPR问题中地点的重访重新定义为在地点背景下对这些特定事物的重访，从而实现对这些特定事物的识别。虽然这种基于分割区域的位置识别方法为更高级别的语义任务（如目标导向导航）提供了直接联系，但它也解决了从显著视角变化中匹配部分重叠图像的一个基本问题。基于分割区域的图像部分表示避免了当重叠部分的相似性被非重叠部分的不相似性所主导时，由整个图像表示引起的失配。

3. 效果展示

定性结果：各列分别代表查询图像、SegVLAD的正确匹配和AnyLoc的错误匹配。不同数据集（如AmsterTime、百度商场、Pitts-30K）的示例按行展示。

4. 主要贡献

我们提出的新颖的基于分割区域的VPR方法，称为SegVLAD（基于局部聚合描述符的分割区域向量），该方法有以下新颖贡献：

提出了一种图像表示方法，即将图像表示为多个重叠的分割区域子图的集合，称为“超级分割区域”，这能够在部分重叠的图像中实现准确识别；

提出了一种特征聚合的分解表示方法，以有效融合分割区域级信息以及分割区域邻域信息；

提出了一种相似性加权排序方法，将分割区域级检索转换为图像级检索。

通过使用多种数据源，我们证明了所提出的基于分割区域的检索方法能够在全局描述符检索效果较差的大视角变化下实现位置识别。SegVLAD在多个具有挑战性的数据集上达到了新的最先进水平。我们还介绍了在实例级对象检索任务上对我们方法的评估——这是我们的管道的一种新颖能力，与传统VPR方法不同。我们进行了几项消融实验和参数研究，以证明设计选择的合理性，并强调了我们作为开放集基于分割区域的粗略检索器的有效性。

5. 方法

尽管位置识别技术近期取得了进步，但视角变化仍然是实体智能体识别环境中相同特定事物的一个开放性挑战。当前视觉位置识别方法通过将整个图像转换为全局描述符来解决这一问题，这并没有明确处理由视角变化引起的部分视觉重叠问题。我们提出了一种替代解决方案，即借助图像分割区域对图像进行部分表示。我们将描述我们的表示和检索方法，该方法偏离了传统的VPR技术，但在识别构成地点的物体/事物方面创造了一种新能力。

从最左侧图像中的一个窗口的邻域扩展到最右侧图像中的整栋建筑，从无邻域聚合逐渐发展到三阶聚合。这种邻域扩展与典型的基于规则网格或补丁的方法截然不同，后者可能无法捕获具有语义意义的超级片段（SuperSegments）。

从同一张图像中获得的四个超级片段的示例。这四个超级片段在空间上相互重叠，这与通常不允许片段间重叠的粗略分割方法不同。

6. 实验结果

表1展示了在标准户外街景数据集上与最先进的视觉位置识别（Visual Place Recognition, VPR）方法的Recall@1/5对比，这些数据集与用于VPR的典型训练数据集相似。表2涵盖了受AnyLoc[32]启发的“分布外”数据集，包括室内环境（百度商场和17个场所）、航空影像（VPAir）、室内到室外的视角（InsideOut）和历史图像匹配（AmsterTime）。

片段聚合与全图聚合：表1和表2显示，考虑到主干网络变体（PreT和FineT），我们提出的方法SegVLAD在大多数数据集上达到了新的最先进的水平。AnyLoc和SALAD在聚合范围（全局与片段）上与SegVLAD-PreT和SegVLAD-FineT分别不同。因此，SegVLAD的卓越性能清楚地凸显了基于片段的检索方法相较于基于全图方法的优势。在百度商场数据集（高度混淆的室内环境）上，我们的方法（预训练）相较于AnyLoc在R@1上绝对增益提高了3%−5%，在R@5上提高了约6%。在InsideOut数据集（匹配从室内视角拍摄的室外图像）上，我们的方法实现了“有意义”的召回率，而其他所有基线方法均未实现。总体而言，这些结果凸显出，即使使用了强大的图像编码器（如DINOv2），全局聚合在应对主要视角变化下的图像匹配挑战时仍显得力不从心——因此，需要的是部分图像表示和匹配，以获得卓越的识别性能。

7. 总结 & 未来工作

在本文中，我们提出了一种新颖的基于图像片段描述和检索的视觉位置识别流程SegVLAD，这类似于“重温事物”作为识别构成某个地点特定实例的手段。我们提出的基于超级片段的图像表示和基于新颖因子分解的特征聚合，使我们能够有效地利用片段相似性加权的图像排名来表示和检索图像。我们的结果表明，尽管使用了强大的图像编码器（如DINOv2，无论是预训练还是针对VPR微调），现有的基于全局描述符的技术仍无法应对视角变化带来的挑战。相比之下，SegVLAD能够通过其部分图像表示（以片段的半全局子图，即超级片段的形式）匹配部分重叠图像来正确检索图像。因此，我们的方法在三个不同的数据集（室内和室外）上取得了最先进的结果，这些数据集除了外观变化和高度感知混淆等其他挑战外，还呈现出强烈的视角变化。通过一项额外的物体实例检索研究，我们证明了我们的方法在识别其特定地点上下文中的物体实例方面的独特能力——这是现有VPR方法所缺乏的一种开放集识别能力。

我们的方法转变了基于检索的VPR研究的范式，因为传统方法主要将研究划分为基于全图全局描述符的粗略检索或基于局部特征的几何重排序。我们的方法补充了最近的一些并行工作，如MESA；未来的工作可以探索一种紧密集成了基于片段的粗略检索器和基于片段的重排序器（如MESA）的层次化VPR流程，从而完全摒弃全局全图描述符。此外，具有隐式内嵌语义的基于片段的表示，为通过CLIP和大型语言模型（Large Language Models, LLMs）创建基于文本的接口提供了一种自然方式，这些接口可以很容易地与这一方向上的最新研究相结合。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~