当前位置:首页|资讯

融合结构和非结构信息!打造最强开源视觉定位算法

作者:3D视觉工坊发布时间:2024-10-08

0. 论文信息

标题:Event-based Stereo Depth Estimation: A Survey

作者:Suman Ghosh, Guillermo Gallego

机构:TU Berlin and Robotics Institute Germany、Science of Intelligence Excellence Cluster and Einstein Center Digital Future

原文链接:https://arxiv.org/abs/2409.17680

1. 摘要

视觉定位是估计已知场景中给定查询图像的相机姿态的问题。大多数最新的定位方法遵循基于结构的范例,并使用查询图像中的像素和场景中的3D点之间的2D 3D匹配来进行姿态估计。这些方法假设场景的精确3D模型,该模型可能不总是可用的,尤其是如果只有少数图像可用于计算场景表示。相比之下,无结构方法依赖于2D-2D匹配,并且不需要任何3D场景模型。然而,它们也不如基于结构的方法精确。尽管一个先前的工作提出了组合基于结构和无结构的姿态估计策略,但是它的实际相关性还没有被显示。我们分析了结合基于结构和无结构的策略,同时探索如何在分别从2D-2D和2D-3D匹配中获得的姿态之间进行选择。我们证明了结合这两种策略可以在多种实际相关的场景中提高定位性能。

2. 引言

在已知场景中,估计拍摄给定图像时的位置和朝向,这一任务被称为视觉定位任务,是增强现实和机器人技术等领域应用的重要组成部分。

目前最先进的方法大多是在查询图像的像素与场景中的3D点之间建立2D-3D匹配。然后利用这些匹配进行姿态估计,例如,在RANSAC内部应用P3P求解器。在已知准确的3D点位置的情况下,这种方法能够得出精确的相机姿态估计。

除了这种基于结构的方法外,还有无结构方法。它们通过查询图像与多个已

知姿态和内参的数据库图像之间的2D-2D匹配来估计查询图像的姿态,例如,通过半广义相对姿态估计或三角测量。这类方法即使在缺少准确的3D结构估计或数据库图像之间重叠较少的情况下也适用。然而,它们的准确性通常较低。

Camposeco等人没有使用2D-3D或2D-2D匹配,而是提出了同时使用这两种匹配的方法。在每次迭代中,他们提出的混合RANSAC方法首先随机采样一个最小求解器。基于该求解器,其方法提取所需的2D-2D和2D-3D对应点集,估计姿态,并计算内点数量。然后,它更新用于选择求解器的概率分布。该方法不预先选择基于结构或无结构的策略,而是根据哪种方法表现最佳,为每个查询图像选择适当的姿态估计策略。使用模拟的2D-2D匹配进行的实验显示了有前景的结果。然而,我们尚未了解到使用自适应策略的视觉定位系统。在本文中,我们研究了在哪些场景下自适应地选择基于结构或无结构的姿态估计策略能够提高定位准确性。

Camposeco等人的贡献有两方面:(1)他们提出了基于2D-2D和2D-3D匹配的多个最小求解器。(2)他们提出了上述的混合RANSAC框架,该框架可以使用具有不同输入集的多个求解器。在选择混合RANSAC中的最佳姿态时,他们只是简单地将2D-2D和2D-3D匹配的内点数量相加。在本文中,我们证明了这种选择最佳相机姿态(从而选择不同相机姿态估计策略)的简单方法在实际应用中效果不佳。因此,我们讨论并评估了多种同样简单(因此具有实用价值)的姿态选择策略。除了在选择(混合)RANSAC框架内不同姿态(如[11]所示)之外,我们还研究了为基于结构和无结构方法分别获得的姿态选择单独的RANSAC。对不同真实世界数据集的实验表明:(1)选择策略的选择对姿态准确性有显著影响。(2)结合基于结构和无结构姿态估计方法的策略具有实际意义。特别是当只有一组稀疏的数据库图像可用,或3D几何估计不准确时,它们可以显著提高性能。

4. 主要贡献

本文作出以下贡献:(1)我们证明了在实际应用中,自适应选择基于结构和无结构姿态估计方法的策略具有重要意义,特别是我们展示了这些策略在哪些场景下有用。(2)我们通过分析如何选择这两种方法,即为相机姿态估计选择适当的评分函数,来分析这两种方法之间的选择。我们证明了函数的选择对姿态准确性有显著影响。(3)我们评估了使用基于结构和无结构方法得出的姿态估计对的选择策略。(4)我们将公开我们的代码。

5. 效果展示

消融评分函数。图1展示了在使用混合局部优化策略时,采用不同评分函数的自适应方法,其查询图像定位在其真实位姿的10厘米和1度范围内的百分比。此外,我们还报告了P3P、E5+1、“Oracle”和HLoc基线方法的结果。使用2D-3D匹配的方法将场景表示为结构从运动(Structure-from-Motion,SfM)点云。通过匹配查询图像和通过基于NetVLAD的图像检索找到的视觉相似的数据库图像之间的SuperPoint[17]特征和SuperGlue匹配器,获得2D-2D匹配。然后,通过SfM模型将得到的2D-2D匹配提升为2D-3D匹配。我们报告了使用数据集提供的数据库图像序列中每隔N张图像得到的场景表示的结果,其中N为变化值。N的增加导致使用的数据库图像数量减少。这增加了数据库图像之间的距离,使得数据库图像之间的匹配变得更加困难。因此,三维点是由更少的图像三角测量得出的(可能会降低其准确性),并且总体上生成的三维点也更少。推荐课程:实时400FPS!高精NeRF/Gaussian SLAM定位与建图。

图1所示的结果带来了多个有趣的观察:

(1)对于密集采样的场景,即N值较小的情况,基于结构的定位(P3P)显著优于无结构定位(E5+1)。随着稀疏性的增加,即N的增加,P3P的性能下降速度比E5+1更快。对于稀疏表示的场景,例如N=507时的商店门面场景或N=50时的Aachen场景,E5+1可以(显著)优于P3P以及HLoc基线方法。因此,对于问题(A)的回答是,无结构方法可以优于基于结构的方法。(2)评分函数的选择对位姿精度有显著影响。如[11]中所做的那样,仅仅将2D-2D和2D-3D内点的数量相加,其性能比求和或乘以MSAC分数更差。已知在使用相同类型的匹配(例如,仅2D-2D匹配)时,MSAC分数选择的位姿比内点计数更准确。毫不奇怪,在使用不同类型的匹配时,求和或乘以MSAC分数也能更好地估计位姿质量,且这两种策略的表现相似。(3)使用基于MSAC的评分函数的自适应方法,其性能始终与P3P和E5+1相当或更优。特别是,对于较小的N值,自适应方法的准确性与P3P相当,而对于较大的N值,其性能与E5+1相当或更优。此外,该方法与“Oracle”基线(从P3P和E5+1生成的位姿中选择最接近真实位姿的位姿)和最新的HLoc方法相比也颇具竞争力。因此,对于问题(B)的回答是,可以设计一种简单有效的方法,结合基于结构和无结构位姿估计策略的优点。

6. 实验结果

消融局部优化策略。表1评估了局部优化策略类型对相机位姿精度的影响。总体而言,混合策略的表现与拆分策略相当或更优,特别是对于较大的N值。这并不奇怪,因为混合方法针对两种匹配类型进行了优化,而拆分策略仅使用了一种类型的匹配。我们在剑桥地标数据集上也观察到了类似的行为。

从网格渲染的深度图可以得到准确的2D-3D匹配,而从单目度量深度估计器得到的深度图则存在噪声,且图像之间缺乏一致性,导致2D-3D匹配不可靠。自适应求解器理想情况下应能处理这两种情况。此实验处理的是与减少参考图像集(表1)不同的场景,因为从减少的参考集中三角测量的三维点更稀疏,但仍然准确。鉴于单目深度图中的噪声量,我们尝试过滤掉不准确的对应点:将每个三维点投影到包含相应二维点的所有检索到的参考图像中,并计算重投影误差低于阈值(RE阈值)的图像数量。如果此类内点图像的数量小于阈值,则过滤掉该三维点。除了硬内点阈值(in. thr.)外,我们还使用第二个阈值,即观察到相应二维点的检索图像数量的比例(rel. thr.)。我们在表2中比较了有过滤和无过滤的情况。过滤可以显著提高Metric3D[71, 24]中噪声深度图的性能,但如果几何形状准确,则可能有害。虽然表1中在SfM表示上,使用MSAC分数之和与乘积的自适应方法表现相似,但结合表2中的过滤,使用MSAC分数之和能更好地处理不准确的Metric3D深度。从实验中,我们得出结论,对于问题(C)的回答是:虽然基于结构和无结构方法的选择可以取决于场景表示,但先前的实验表明,自适应方法的主要优势在于处理稀疏场景,其中仅使用相对较少的数据库图像来构建场景表示。

对于表3中的扩展CMU Seasons数据集也可以观察到相同的现象。这些结果很有趣,因为使用更稀疏的数据库图像集通常可以得到更节省内存的表示。在这种情况下,自适应方法是值得探索的一个有趣方向。

7. 总结 & 未来工作

本文探讨了以下问题:在实践中,自适应选择基于结构和无结构相机姿态估计策略的视觉定位方法是否有效。我们的关键发现是,我们在两种策略估计的姿态中选择最佳相机姿态的方式对姿态准确性有着重大影响,从而决定了自适应方法在实际应用中是否有效。通过使用适当的相机姿态评分函数和局部优化策略,我们证明了自适应方法能够兼具两者之长:在提供精确3D场景几何信息时(如基于结构的方法所提供),具有高精度姿态;在场景几何信息不准确时(如无结构方法所提供),具备处理能力。实验表明,在仅有几张数据库图像可供使用时,自适应方法尤为有效,这对于内存消耗受限的重要场景而言意义重大。我们的方法易于实现,且将公开源代码。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊可提供顶会论文的课题如下:

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿:具身智能、大模型、Mamba、扩散模型等

除了这些,还有求职硬件选型视觉产品落地、产品、行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。




Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1