结合自车转向等状态！METDrive：具有时序引导的多模态端到端自动驾驶

作者：自动驾驶之心发布时间：2024-10-02

添加小助理微信AIDriver004，加入自动驾驶之心近30+方向技术交流群！

论文题目：METDrive: Multi-modal End-to-end Autonomous Driving with Temporal Guidance
论文链接：https://arxiv.org/pdf/2409.12667

加入自动驾驶之心知识星球，星球内凝聚了众多自动驾驶实战问题，以及各个模块的学习资料:近20门视频课程(星球成员免费学习)、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入!

写在前面 && 笔者理解

当前自动驾驶最前沿的方案，也是众多主机厂或者Tier1都开始布局上车，甚至Allin的方案，就是“端到端”！而为了提高系统的鲁棒性和可靠性，多模态的方案仍然展现着较为显著的前景。传感器融合，即将来自摄像头和激光雷达等多种来源的数据整合在一起，也已经成为推进多模态端到端方案的基石。然而，从感知传感器获取的原始数据经常包含许多与自动驾驶车辆的运动规划无关的对象，比如：一些噪点等。因此，依赖这些传感器融合特征的端到端模型的输出可能会受到这些无关检测的不利影响。作者表示当前的端到端方法大多都没有结合与自车状态相关的信息，这会导致在某些场景中的失败。

今天要介绍的这篇论文，作者提出可以将额外的与自车相关的特征作为编码器的指导，来有效地解决上述问题。作者提出了METDrive的方法，这是一个新颖的端到端系统，它结合了基于自我状态输入的时间序列特征的时间指导。而所谓的重要的与自车相关的状态，是比如旋转角度、转向输入、油门水平和航点等等，通常表示为区别于原始图像和激光雷达点云不同的模态。

通过如图1所示的整合这些时间线索，其目标是指导从感知传感器提取的几何特征，从而提高系统做出明智决策的能力。这种整合不仅增强了系统对环境的理解，还促进了更准确、更有情境感知的运动规划。CARLA排行榜提供了一个具有挑战性的在线评估平台，用于评估在CARLA模拟器中运行的自动驾驶代理。Longest6 基准测试包括设计用来测试自动驾驶系统的耐久性和可靠性的延长路线。为了评估该系统在长期任务上的性能，坐着选择了Longest6基准测试进行评估。

本文的贡献总结如下：

提出了一个时间序列数据编码器，用于处理包括旋转角度、转向信号、油门信号和航点向量在内的自我相关状态，以指导来自所有传感器的特征融合。相应地，设计了一个时间指导损失函数，以优化相邻时间步的航点预测之间的一致性。基于这样的设计，作者提出了具有时间指导的新颖端到端系统METDrive。
在CARLA Longest6基准测试中，作者提出的系统与其他最新系统相比，实现了更好的驾驶得分、路线完成度和违规得分。

Learning from All Vehicles

在端到端系统中的运动规划中，一个关键的进展是提出了从环境中所有车辆中学习的概念，如Chen等人所提出的方法(https://arxiv.org/pdf/2203.11934)。他们的模型整合了感知模块、运动规划器和低级控制器，采用了三阶段模块化流水线。这种方法通过训练所有周围车辆的轨迹，而不仅仅是自车，显著提高了运动规划的泛化能力。该模型的架构旨在产生车辆不变的特征，增强运动规划器预测不同车辆未来轨迹的能力。

Trajectory Prediction and Multi-Modal Fusion

轨迹预测一直是最新模型的一个核心焦点，目标是为车辆的未来路径生成准确的航点。Chitta等人介绍的TransFuser模型(https://arxiv.org/abs/2205.15997)采用了多模态融合变换器，结合了RGB图像和激光雷达数据。这种架构允许模型利用不同传感器输入的互补性质，从而提高航点预测的准确性。模型中变换器架构内的自注意力机制特别有效地将全局上下文纳入决策过程。

Addressing Biases in Imitation Learning

模仿学习基础的自动驾驶模型面临的一个重大挑战是隐藏bias的存在，特别是与横向恢复和纵向控制相关的bias。Jaeger等人(https://arxiv.org/abs/2306.07957)通过识别依赖于目标点跟踪和多模态航点预测的最先进的模型中的bias来解决这些问题。他们提出的模型，TransFuser++，通过结合架构修改和训练策略来减轻这些bias，从而在基准任务上提高了驾驶性能。

Combining Trajectory Planning with Control Prediction

最近的方法还探索了将轨迹规划与控制预测整合到一个学习任务重。例如，Wu等人提出了一种新颖的架构(https://arxiv.org/abs/2206.08129)，将这两种范式结合在一个learning pipeline中。该模型使用由轨迹规划分支引导的多步控制预测分支，这允许进行更准确、更有情境感知的控制决策。这种方法在处理复杂驾驶场景时特别有益，直接预测控制动作可能会导致次优行为。

Alignment with Student’s Perception and Teacher’s Planning

Jia等人(https://arxiv.org/abs/2308.00398)通过利用冻结的教师模型进行规划，而学生模型专注于感知，引入了一种新颖的端到端自动驾驶方法。该论文提出了一个适配器模块，以对齐学生模型的感知输出与教师模型的规划输入，解决了预测数据与地面真实数据之间的分布差距，结合了动作引导的特征学习和掩蔽策略来完善学习过程。

论文方法

Imitation Learning with More Modalities

作者对CARLA中的最近端到端系统进行了实验，评估了他们的论文中提供的checkpoints在CARLA城镇的长路线上的表现。关于TransFuser++的表现，实验中的图2显示，即使在交通条件清晰的情况下，自车在绿灯时意外地停在了交叉路口。基于更多的观察，作者发现，在某些情况下，根据模型的训练标签，agent的行为可能会遇到失败。为了解决这些不足，作者提出的系统旨在编码更多的模态，例如自车状态，为运动规划任务提供增强的指导。与当前其他端到端系统相比，作者提出的系统还额外结合了与自我相关的数据输入，从而增强了系统利用时间信息的能力。

具体来说，作者将与自我相关的状态视为时间序列数据，使系统能够捕捉自车状态的动态演变。因此，作者的系统架构被划分为两个互补的分支：一个感知分支，它处理来自摄像头和激光雷达的传感器数据，将这些输入转换为代表环境空间布局的几何特征；以及一个时间分支，它将与自我相关的数据作为时间序列输入进行处理，从而捕捉自车状态的时间动态。在图3中，作者展示了所提出的方法，首先通过各自的编码器提取几何特征和时间特征。然后，这些编码后的特征通过门控循环单元（GRUs）进行融合和处理，以便于时间指导下的航点预测。

Perception branch

感知分支包括基于ResNet的图像和激光雷达编码器，它们从传感器数据中提取几何特征。采用基于注意力的特征融合块有效地整合这些特征。通过使用基于注意力的融合，几何特征与来自图像和激光雷达数据的时间输入一起处理，从而确保与时间序列数据的后续融合一致性。

Temporal branch

相应的token随后使用基于自注意力的编码器进行编码。编码后的特征随后通过一个全连接网络进行整合，该网络从旋转角度、转向角度、油门信号和目标点的归一化向量的时间输入中产生融合特征。时间几何和时间序列特征被连接并输入到基于GRU的航点decoder中。与目标点输入一起，这种设置使得输出航点的回归预测成为可能，如Transfuser所述。

Temporal guidance loss

实验结果

实验设置

作者的训练数据是在CARLA的01、03、04、06、07和10号城镇收集的，包含了前摄像头图像、中心激光雷达点云、旋转角度记录、控制信号记录、速度记录以及目标点记录。由于这些记录是基于CARLA提供的自动驾驶agent进行的，其驾驶行为没有人类驾驶员那么自然和流畅，作者对控制信号的噪声序列进行了过滤和平均，以最小化对作者系统性能的降低。根据TransFuser++，作者训练包括两阶段，其中感知分支首先与旋转角度记录、控制信号记录、速度记录和控制命令记录一起训练相应的损失，然后作者使用航点GRU解码器对检查点进行微调和所有损失的训练。作者使用320K的训练样本在单个Nvidia RTX 4090 24G上以16的批量大小训练模型。

基准测试

为了评估作者模型的性能，作者使用CARLA Longest6基准测试，其中包括城镇01-06中的36条长路线，并配备了最大交通密度。表I显示了在Longest6基准测试上评估模型的性能比较，作者提出的系统在驾驶得分、路线完成度和违规得分方面都优于最近的方法。

消融研究

为了验证作者设计的有效性，作者进行了消融实验，包括时间指导损失以及不同的时间序列特征序列输入集。时间指导损失的结果如表II所示。在没有时间指导损失的训练情况下，作者的模型在CARLA Longest6基准测试中性能下降，因为编码的时间序列特征在没有设计损失函数施加的约束下无法与时间几何特征对齐。

在表III中，作者测试了不同的序列输入类型，并发现分解的序列输入效果最佳。这是因为分解的序列输入明确了自我车辆坐标系沿水平和垂直轴的横向和纵向特征。

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！重磅，自动驾驶之心科研论文辅导来啦，申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向，欢迎联系我们！

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内外最大最专业，近4000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频。