当前位置:首页|资讯

TUM新作!SOLVR:面向子地图的激光雷达-视觉重定位

作者:3D视觉工坊发布时间:2024-09-25

0. 论文信息

标题:SOLVR: Submap Oriented LiDAR-Visual Re-Localisation

作者:Joshua Knights, Sebastián Barbas Laina, Peyman Moghadam, Stefan Leutenegger

机构:TUM、CSIRO、Queensland University of Technology

原文链接:https://arxiv.org/abs/2409.10247

1. 引言

重定位是移动机器人领域的一项基本挑战,即机器人通过粗略识别相似地点(地点识别)来确定自身在现有地图中的位置,随后预测当前视图与粗略检索到的地点候选之间的相对六自由度(DoF)变换(配准)。截至目前,这一任务大多通过视觉或激光雷达(LiDAR)等传感模态来探索,每种模态都有其独特的优势和局限性。摄像头轻便且成本低廉,但会受到光照和季节变化以及因视野有限而导致的反向访问问题的影响。相反,激光雷达传感器对光照和季节变化具有鲁棒性,能够提供场景的全景视图,但相比摄像头,激光雷达传感器更重、更昂贵且功耗更大。

激光雷达-视觉重定位旨在通过实现跨模态地点识别和配准,充分利用这两种传感模态的优势,从而在重新部署到先前已映射的环境或利用具有不同传感能力和需求的异构机器人群体进行探索时,为传感器设置提供更多灵活性。然而,学习可用于跨传感模态重定位的可靠跨模态特征并非易事,以往的大多数方法要么侧重于问题的地点识别方面,要么侧重于配准方面,而非构建一个统一的重定位流程。

在本文中,我们提出了SOLVR,这是一个基于学习的激光雷达-视觉重定位的统一流程。SOLVR通过预测并概率性地融合立体图像对的度量深度,对来自传入摄像头帧的局部窗口构建3D子图,对齐传感模态并扩展摄像头传感器的有效视野,以实现更可靠的重定位。我们还提出了一种新方法,用于在重定位的不同方面定义正例,以便在训练过程中同时优化我们流程中的地点识别和配准性能,并引入的关键点配准方法的轻量级改编版本,显著提高困难配准示例中传感器姿态估计的速度和可靠性。

2. 摘要

本文提出了SOLVR,一种基于学习的激光雷达-视觉重定位的统一管道,它执行跨传感器模态的位置识别和6-DoF配准。我们提出了一种策略,通过利用立体图像流来产生带有姿态信息的度量深度预测,然后使用概率占据框架融合来自局部窗口的多个场景视图,以扩展相机的有限视野,从而对齐输入传感器模态。此外,SOLVR采用了一种灵活的定义来定义不同训练损失的正面例子,使我们能够同时优化位置识别和注册性能。此外,我们用配准函数替换RANSAC,该配准函数用稀疏关键点对应的估计内层似然性对简单的最小二乘拟合进行加权,从而在查询和检索位置之间的内层比率较低的情况下提高性能。我们在KITTI和KITTI360数据集上的实验表明,SOLVR在激光雷达视觉地点识别和配准方面实现了一流的性能,特别是在查询和检索地点之间的更大距离上提高了配准精度。推荐课程:对于3D激光SLAM,LeGo-LOAM到底有多重要?

3. 效果展示

我们针对LiDAR视觉重新定位任务的方法图示。SOLVR(视觉-LiDAR联合重定位)从一系列输入的相机图像中构建3D子图,以对齐相机和LiDAR传感器的模态。子图用于从LiDAR扫描数据库中检索对应位置,此时子图和扫描图将进行配准,以估计当前传感器姿态。

4. 主要贡献

本文的主要贡献如下:

• 我们提出了SOLVR,一个基于学习的激光雷达-视觉重定位的统一流程。

• 我们提出了一种新方法,通过预测每对传入立体图像的度量深度并概率性地整合来自局部窗口的帧,从摄像头图像流中生成3D子图,从而获得更清晰、几何一致的子图。

• 我们提出了一种新方法,用于在重定位的不同方面定义正例,以便在我们的流程中同时优化地点识别和配准性能。

• 我们采用了一种轻量级的配准方法,相比RANSAC基线,实现了更快且更稳健的姿态估计。

• 我们在KITTI和KITTI360数据集上对我们的方法进行了基准测试,并与现有的激光雷达-视觉地点识别和配准方法相比,展示了持续领先的结果。特别是,我们证明了SOLVR显著提高了现实世界中查询点与检索地点之间距离较大时的配准精度。

5. 方法

首先,我们使用立体深度估计为每张查询图像创建3D深度投影,然后利用相机轨迹和占用图将它们融合成更大的精细子图。其次,我们训练两个稀疏卷积网络——每个输入模态一个——以提取每个输入子图或扫描图的全局特征嵌入、关键点坐标和关键点特征。最后,我们使用全局特征通过从先前观察到的位置数据库中检索给定查询的最接近候选对象来进行位置识别,并利用局部关键点坐标和特征,通过我们提出的配准方法预测查询和候选对象之间的6自由度(6-DoF)变换。

6. 实验结果

7. 总结 & 未来工作

在本文中,我们介绍了SOLVR,这是一种基于学习的激光雷达-视觉重定位流程。SOLVR从相机图像中生成3D子图,以对齐传感器模式,同时保留基于激光雷达重定位的优势,而无需增加激光雷达传感器的重量和成本。通过在训练过程中引入灵活的正阈值,并适应3D配准领域的最新进展,SOLVR在位置识别和配准方面均达到了最先进的水平,比现有方法提供了更快、更可靠的性能。在未来的工作中,探索多视图立体视觉以减少对立体相机的依赖,或利用交叉注意机制进行更多上下文感知的配准,是进一步研究的有前途的途径。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

3D视觉工坊提供35个顶会论文的课题如下:

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿:具身智能、大模型、Mamba、扩散模型等

除了这些,还有求职硬件选型视觉产品落地、产品、行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1