当前位置:首页|资讯

NeurlPS'24开源 | 无需复杂地图L!无人机六自由度定位新SOTA

作者:3D视觉工坊发布时间:2024-10-20

太长不看版:一种使用LoD 3D地图和神经线框对准的空中视觉定位新方法

0. 论文信息

标题:LoD-Loc: Aerial Visual Localization using LoD 3D Map with Neural Wireframe Alignment

作者:Juelin Zhu, Shen Yan, Long Wang, Shengyue Zhang, Yu Liu, Maojun Zhang

机构:National University of Defense Technology、SenseTime Research

原文链接:https://arxiv.org/abs/2410.12269

代码链接:https://victorzoo.github.io/LoD-Loc.github.io/

1. 摘要

我们提出了一种名为LoD-Loc的新方法,用于空中视觉定位。与现有的定位算法不同,LoD-Loc不依赖于复杂的3D表示,而是可以使用细节层次(Level-of-Detail,LoD)3D地图来估计无人机(Unmanned Aerial Vehicle,UAV)的姿态。LoD-Loc主要通过将LoD投影模型衍生的线框与神经网络预测的线框进行对齐来实现这一目标。具体而言,给定由无人机传感器提供的粗略姿态,LoD-Loc会分层地为均匀采样的姿态假设构建一个代价体积(cost volume),以描述姿态概率分布,并选择概率最大的姿态。该体积内的每个代价都衡量了投影线框和预测线框之间的对齐程度。LoD-Loc还设计了一种6自由度(6-Degrees-of-Freedom,6-DoF)姿态优化算法,通过可微的高斯-牛顿方法来细化先前的结果。由于针对所研究的问题没有公开的数据集,我们收集了两个具有LoD3.0和LoD2.0地图层次的数据集,以及真实的RGB查询图像和真实姿态标注。我们对我们的方法进行了基准测试,并证明LoD-Loc取得了出色的性能,甚至超过了当前使用纹理3D模型进行定位的最先进方法。

2. 引言

空中视觉定位是指确定无人机摄像头相对于已知地图的全局位置和方向的过程。这一过程对许多重要应用都大有裨益,从货物运输、监视到搜救等。

继地面定位算法之后,当前的空中视觉定位方法通常涉及将查询图像中的像素与预建的高质量3D地图中的点进行匹配,而这些3D地图通常是从3D纹理模型中得出的。随后,通常会使用透视n点(Perspective-n-Point,PnP)随机抽样一致(RANSAC)技术来计算相机姿态。然而,使用摄影测量法构建高质量的3D地图在全球范围内成本高昂,并且需要频繁更新以适应视觉外观的随时间变化。此外,这些3D地图的存储成本也很高,这对无人机上的终端部署构成了重大挑战。而且,高分辨率的3D地图会泄露定位区域的详细信息,从而引发关于国土安全和隐私保护的重大担忧。

为了解决这些挑战,我们提出利用细节层次(LoD)3D城市地图作为定位线索,如图1所示。与传统的纹理3D模型相比,LoD 3D模型具有以下优势:1)易于获取和维护:随着遥感技术的快速发展,可以生成世界规模的LoD城市模型。许多商业公司,如谷歌地图和百度地图,已将LoD 3D模型集成到其地图应用中。2)地图体积小:LoD地图非常紧凑,其大小比纹理3D地图小104倍,能够在设备上实现大范围的定位。3)隐私保护且政策友好:由于LoD城市模型仅以高度抽象和简化的方式揭示建筑物的基本3D轮廓,因此引发的隐私泄露和土地资源机密泄露的担忧较少。

然而,与纹理3D模型相比,使用LoD地图进行定位非常具有挑战性,这主要是由于缺乏纹理和细节。这种缺陷使得几乎不可能建立基于局部特征的2D到3D对应关系。受到以下想法的启发:当姿态被正确求解时,网络预测的建筑物线框可以与从LoD 3D模型投影出的线框对齐,我们引入了LoD-Loc,这是一种专为LoD 3D城市地图中的视觉定位而设计的新方法。我们的方法以查询图像及其真实的传感器数据(即GPS、重力和罗盘)作为输入,并估计飞行中无人机的6-DoF姿态。具体而言,我们最初固定2-DoF重力方向,并围绕传感器姿态对4-DoF(包括位置和偏航角)进行采样以生成姿态假设,因为惯性单元提供的重力方向误差较小。在生成姿态假设后,将LoD建筑物线框投影到查询图像平面上。然后,基于投影线框和预测线框之间的对齐程度为每个姿态假设打分,从而形成4D姿态代价体积。通过应用softmax操作,我们得出姿态上的概率密度,该概率密度可用于通过分类来选择姿态。此外,在姿态选择阶段之后,我们采用了一种可微的高斯-牛顿方法,其优化目标是最大化线框对齐度,以细化整体6-DoF姿态。姿态选择和优化过程相对于网络输出是完全可微的,这使得能够使用真实姿态作为监督,以端到端的方式训练特征提取和姿态估计。推荐课程:零基础入门四旋翼建模与控制(MATLAB仿真)[理论+实战]。

为了实现高精度和低内存使用,我们提出了一种用于姿态选择的分层方案,该方案利用多个小的姿态体积,以从粗到细的方式逐步计算姿态。在整个层次结构中,我们采用自适应采样策略,其中前一阶段基于方差的不确定性会影响下一阶段构建姿态代价体积的采样范围。这一自适应过程能够对姿态进行合理的、细粒度的空间划分,从而显著提高最终姿态输出的准确性。

为了促进该领域的研究以及训练和评估我们的方法,我们发布了两个数据集,分别具有LoD3.0和LoD2.0的地图层次。对于LoD3.0数据集,我们采用半自动方法从最近的大规模倾斜摄影场景中生成LoD模型数据,该场景覆盖2.5平方公里的区域。查询图像由无人机拍摄,并记录传感器数据(如GPS、IMU)。对于LOD2.0数据集,我们使用了瑞士联邦当局提供的LoD模型数据,特别是洛桑联邦理工学院(École Polytechnique Fédérale de Lausanne,EPFL)附近的SwissTOPO数据,覆盖8.2平方公里的区域。具有真实姿态的查询图像来自CrossLoc项目。

我们在这两个数据集上进行了大量实验。结果表明,由于LoD 3D模型缺乏颜色和纹理,先前最先进的图像检索和匹配方法基本失败。相比之下,我们的方法始终取得优异的结果,甚至超过了当前使用纹理3D模型进行定位的最先进方法。

3. 效果展示

本文提出LoD-Loc方法,以解决基于LoD(Level of Detail,细节层次)3D地图表示的场景的视觉定位问题。LoD 3D地图具有易于获取、轻量级和内置隐私保护能力的特点。给定一张查询图像及其粗略的传感器姿态,本文方法利用LoD模型的线框对齐来恢复相机姿态。

在解决地图重建和维护的难题时,一些方法选择使用卫星图像等俯视图像,或利用OpenStreetMap作为参考。然而,这些方法最多只能估计3自由度(3-DoF,包括平面位置和朝向)的姿态。为了解决大地图尺寸的问题,一些方法尝试压缩地图、降低模型复杂度,或利用无特征的几何信息。在隐私方面,一些方法提出将3D点云转换为3D线云,利用点云的语义信息,或使用语义3D地图来增强隐私保护。还有一些方法应用基于学习的姿态回归或场景点回归模型,这些模型不显式存储3D地图。然而,这些方法的有效性和泛化能力通常不如依赖结构从运动恢复(SfM)或纹理网格地图的方法。表1详细比较了不同地图的属性。

4. 主要贡献

贡献:

• 我们提出使用细节层次(LoD)3D地图进行空中6-DoF视觉定位。

• 我们引入了一种新的定位方法,该方法利用线框对齐进行姿态估计。

• 我们的方法是可微的,允许以端到端的方式在姿态监督下训练整个流程。

• 我们发布了两个LoD城市数据集,包含RGB查询图像和真实姿态标注。

5. 方法

对于LoD3.0数据集,我们采用半自动方法从最近的大规模倾斜摄影场景中生成LoD模型数据,该场景覆盖2.5平方公里的区域。查询图像由无人机拍摄,并记录传感器数据(如GPS、IMU)。对于LOD2.0数据集,我们使用了瑞士联邦当局提供的LoD模型数据,特别是洛桑联邦理工学院(École Polytechnique Fédérale de Lausanne,EPFL)附近的SwissTOPO数据,覆盖8.2平方公里的区域。具有真实姿态的查询图像来自CrossLoc项目。

给定一个3D城市LoD地图M、一张查询图像I及其粗略的传感器姿态ξp,本文提出方法的目标是计算绝对6自由度(6-DoF)姿态ξ∗。首先,使用卷积神经网络在多个层次上提取查询图像I的线框概率图。其次,在每个层次上,采用均匀姿态采样和3D线框投影来构建不同姿态假设的成本体积,以描述姿态概率分布。然后选择概率最大的姿态。最后,一个后处理网络在最后一个层次后细化线框概率图,并应用高斯-牛顿法来精炼前一阶段选择的姿态。图3提供了本文提出方法的概述。

6. 实验结果

7. 总结 & 未来工作

本文提出了一种名为LoD-Loc的新方法,该方法利用LoD(Level of Detail,细节层次)3D地图对航拍图像进行定位。与现有方法所依赖的大型且昂贵的3D地图相比,LoD地图提供了一种简单、易获取且注重隐私保护的场景表示方法。在粗略的传感器姿态下,LoD-Loc使用统一的流程来估计相机姿态,该流程包括多尺度特征提取器、从代价体积中选择姿态以及姿态细化。此外,我们还贡献了两个数据集,分别包含LoD3.0和LoD2.0级别的地图,以及带有真实姿态标注的真实RGB查询图像。LoD-Loc取得了卓越的性能,甚至超越了当前使用纹理3D模型进行定位的最先进的方法。我们相信,LoD-Loc为使用简单且可扩展的3D地图进行视觉定位开辟了新的可能性。

局限性。LoD-Loc的运行基于已知重力方向和位置先验的假设。虽然这些假设是合理的,但它们限制了LoD-Loc在GPS被拒绝或不可用的环境中的应用。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊可提供顶会论文的课题如下:




Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1