当前位置:首页|资讯

超越MapTRv2!PriorMapNet:在线矢量化高精地图构建最新SOTA!

作者:3D视觉工坊发布时间:2024-09-13

来源:3D视觉工坊

添加小助理:CV3d008,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎加入!

0. 这篇文章干了啥?

高清(HD)地图是自动驾驶不可或缺的一部分,为道路边界、交通车道和行人过街等关键要素提供详细信息。这些详细信息对于后续的轨迹预测和路径规划等任务至关重要。传统上,HD地图是通过基于离线SLAM的方法构建的,这些方法耗时且无法有效应对城市环境和道路网络的快速更新。为了应对这些挑战,人们对使用车载传感器实时生成地图的在线HD地图构建方法越来越感兴趣。早期方法侧重于鸟瞰图(BEV)中的语义分割。然而,这些方法主要预测光栅化地图,缺乏自动驾驶任务所需的矢量地图信息。

遵循DETR式,最近的进展引入了端到端学习框架,旨在直接预测矢量实例。MapTR和MapTRv2设计了实例点级分层查询嵌入方案,并在构建矢量HD地图方面取得了有前景的成果。随后提出的主流方法遵循这一流程,改进重点集中在增强查询之间的交互和整合外部特征上。

在这些方法中,查询学习地图元素的位置和结构,并在训练过程中与真实值(GT)进行匹配。然而,用于匹配的匈牙利算法对成本矩阵中的微小变化敏感,导致匹配不稳定。为了量化匹配的不稳定性,我们根据Stable-DINO定义了不稳定匹配分数u,表示与前一解码器层相比,其真实值匹配发生变化的查询的百分比。我们还测量了总不稳定匹配分数ut,表示与第一个解码器层相比,最终输出查询的真实值匹配发生变化的百分比。

为什么匹配不稳定?类DETR模型的训练过程分为两个阶段:学习“优质锚点”(阶段I)和学习相对偏移(阶段II)。在主流方法中,查询由内容嵌入和位置嵌入组成。位置嵌入生成用于采样的参考点(与阶段I相关),而内容嵌入则生成采样偏移和注意力权重(与阶段II相关)。位置嵌入是可学习的,并随机初始化,这导致参考点的分布没有特定的结构。相比之下,矢量化的高清地图由按有序序列连接的多段线或多边形等地图元素组成,具有不同的位置分布和几何图案。

为了解决这个问题,我们提出了具有先验位置和结构(PPS-Decoder)的解码器。通过聚类拟合数据集中地图元素的分布,并将这些分布抽象为先验,参考点得到增强,以更好地匹配地图元素的位置和结构特征。先验感知查询通过降低学习“优质锚点”的难度,提高了准确性和匹配稳定性。本质上,先验是一种有效的初始化方法,降低了模型的学习难度。为了利用这种方法,我们引入了具有先验特征(PF-Encoder)的编码器。PF-Encoder将图像特征转换为初始化的鸟瞰图(BEV)特征,这些特征被用作BEV查询先验并在编码器中优化。引入了判别性损失(Discriminative Loss)以更好地聚合地图元素嵌入。此外,BEV特征被下采样到多尺度,增加了计算复杂度。为了提高效率,我们提出了去耦合多尺度可变形交叉注意力(DMD交叉注意力),它分别沿多尺度和多样本解耦交叉注意力。

PF-Encoder、PPS-Decoder和DMD交叉注意力的组合构成了我们提出的PriorMapNet。我们进行了大量实验以证明其优越性。我们在nuScenes和Argoverse2数据集上实现了在线矢量化高清地图构建的最新(SOTA)性能。此外,在各种设置下进行的实验证明了PriorMapNet的鲁棒性和泛化能力。

下面一起来阅读一下这项工作~

1. 论文信息

标题:PriorMapNet: Enhancing Online Vectorized HD Map Construction with Priors

作者:Rongxuan Wang, Xin Lu, Xiaoyang Liu, Xiaoyi Zou, Tongyi Cao, Ying Li

原文链接:https://arxiv.org/abs/2408.08802

2. 摘要

在线矢量化高清(HD)地图构建对于自动驾驶中的后续预测和规划任务至关重要。遵循MapTR范式,近期研究已取得显著成就。然而,主流方法中的参考点通常是随机初始化的,这导致预测与真实值之间的匹配不稳定。为解决这一问题,我们引入PriorMapNet,利用先验知识增强在线矢量化HD地图的构建。我们提出了PPS-Decoder,该解码器通过位置和结构先验为参考点提供信息。通过拟合数据集中的地图元素,先验参考点降低了学习难度并实现了稳定的匹配。此外,我们还提出了PF-Encoder,利用鸟瞰图(BEV)特征先验增强图像到鸟瞰图(BEV)的转换。同时,我们提出了DMD交叉注意力机制,该机制分别沿多尺度和多样本解耦交叉注意力以提高效率。在nuScenes和Argoverse2数据集上的在线矢量化HD地图构建任务中,我们提出的PriorMapNet达到了最先进的性能。相关代码将很快公开发布。

3. 效果展示

如图1所示,MapTRv2在训练和验证过程中均表现出不稳定的匹配。

如图2所示,将这些结构化的地图元素与随机分布的参考点进行匹配具有挑战性,并导致不稳定的匹配。

4. 主要贡献

总结而言,我们的贡献包括:

• 我们引入了一种新颖的基于先验的框架,用于在线高清地图构建,将特征、位置和结构先验集成到编码器和解码器中。

• 我们提出了DMD交叉注意力,它分别沿多尺度和多样本解耦交叉注意力以提高效率。

• 我们在nuScenes和Argoverse2数据集上的在线矢量化高清地图构建中实现了SOTA性能,展示了高性能和泛化能力。

5. 基本原理是啥?

图3展示了本方法的整体流程。给定Nc个多视图图像{Ii}Nc_{i=1}作为输入,输出是一组Nm个地图元素{Mi}Nm_{i=1}。每个地图元素定义为一个类别标签c和一个有序点序列{(xi, yi)}Np_{i=1},其中Np是每个地图元素中的点数。基于MapTRv2,本方法包含三个模块:主干网络、PF-Encoder和PPS-Decoder。主干网络通过ResNet和FPN颈部结构提取多尺度图像特征{Fi_img}Nc_{i=1}。PF-Encoder将图像特征转换为鸟瞰图(BEV)特征FBEV ∈ RH×W×C,并将其下采样到多个尺度。PPS-Decoder通过变换器预测地图元素,并使用带有先验的参考点进行稳定匹配。在交叉注意力层中,我们引入DMD交叉注意力以提高效率。

6. 实验结果

7. 总结 & 未来工作

在本文中,我们引入了PriorMapNet,利用先验知识来增强在线矢量化高清(HD)地图的构建。为解决匹配不稳定的问题,我们提出了PPS-Decoder,该解码器通过从数据集中聚类得到的位置和结构先验为参考点提供信息。为了有效嵌入鸟瞰图(BEV)特征,我们提出了PF-Encoder,该编码器利用BEV特征先验来增强图像到BEV的转换,并利用判别性损失(Discriminative Loss)来改善地图元素嵌入的聚合。为降低计算复杂度,我们提出了DMD交叉注意力机制,该机制分别沿多尺度和多样本执行交叉注意力。我们提出的PriorMapNet在nuScenes和Argoverse2数据集上取得了最先进的性能。

局限性与未来工作。尽管我们在在线矢量化HD地图构建方面取得了进展,但未来工作中仍需解决几个局限性。首先,我们的地图元素先验仅包含位置信息,缺乏语义信息,这限制了查询之间的交互和优化。其次,我们的方法仅依赖于单帧传感器输入,限制了时间和空间上连续的地图元素的表示。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1