自动驾驶新框架！DeTra：目标检测和轨迹预测大一统！

作者：3D视觉工坊发布时间：2024-10-20

0. 论文信息

标题：DeTra: A Unified Model for Object Detection and Trajectory Forecasting

作者：Sergio Casas, Ben Agro, Jiageng Mao, Thomas Gilles, Alexander Cui, Thomas Li, Raquel Urtasun

机构：Waabi、University of Toronto

原文链接：https://arxiv.org/abs/2406.04426

1. 引言

为了确保自动驾驶技术的安全部署，自动驾驶汽车（SDV）必须能够感知周围环境并准确预测潜在结果。目标检测和轨迹预测任务在自动驾驶技术栈中实现了这两项能力。目标检测旨在识别和定位环境中的物体，而轨迹预测则以轨迹的形式预测这些物体未来的行为。随后，规划器会根据检测到的物体及其未来轨迹，为自车生成安全的操控策略。

为了解决目标检测和轨迹预测作为姿态细化问题，我们利用多对象、多假设和时间可学习查询，这些查询通过关注LiDAR点云和高精度（HD）地图进行细化。然而，对LiDAR和地图进行全局交叉关注以及所有查询之间的自关注是极其昂贵且难以优化的。为了使交叉关注实用化，我们将每个查询与表示我们对特定对象在BEV中特定时间、单个未来行为模式下的位置信念的姿态进行配对，并在邻域内执行局部关注。为了使三维查询的自关注实用化，我们将其分解为对象、时间和模式关注。

我们在两个流行的自动驾驶数据集Argoverse 2 Sensor和Waymo Open上展示了我们的方法的有效性，其中DETRA在广泛的检测、预测和联合指标上均优于最先进的方法。重要的是，通过消融研究，我们还表明我们提出的细化机制非常强大，每个提出的组件都对整体方法做出了积极贡献，并且在多个组件之间做出了关键的设计选择。

2. 导读

目标检测和轨迹预测任务在理解自动驾驶场景中起着至关重要的作用。这些任务通常以级联方式执行，这使得它们容易出现复合错误。此外，这两项任务之间通常只有很薄的界面，这就造成了信息丢失的瓶颈。为了应对这些挑战，我们的方法将这两个任务的联合公式化为轨迹细化问题，其中第一个姿态是检测(当前时间)，后续姿态是多个预测的航路点(未来时间)。为了解决这个统一的任务，我们设计了一个优化转换器，直接从激光雷达点云和高清地图中推断对象的存在、姿态和多模式未来行为。我们称这个模型为DeTra，是物体检测和轨迹预测的缩写。在我们的实验中，我们观察到，在广泛的指标范围内，在Argoverse 2传感器和Waymo Open数据集上以较大优势超越了最先进的技术。最后但并非最不重要的一点是，我们进行了广泛的消融研究，研究显示了这项任务的改进价值，每个提议的组件都对其性能有积极的贡献，并且做出了关键的设计选择。

3. 效果展示

传统的自动驾驶系统将目标检测和轨迹预测作为两个独立的任务来处理，通过跟踪将它们以级联的方式连接起来（图1a）。跟踪是一个狭窄的信息瓶颈，仅向下游预测提供带有噪声的历史轨迹，以描述每个物体的运动。尽管在概念上很简单，但这种级联分解方式存在累积误差。例如，检测方向上的微小估计误差可能导致预测的轨迹占据错误的车道，从而使SDV执行危险操作，如急刹车。这些累积误差的严重性促使研究人员致力于测量并将感知不确定性纳入预测中。此外，跟踪错误（如错误关联）可能导致灾难性后果，这促使研究人员在整个流程中保持多个跟踪假设。

另一项工作提出了一个更根本的解决方案，即转向端到端检测和预测范式，其中两个任务共享高维场景特征并联合优化（图1b）。与传统方法相比，后者仅依赖于对象轨迹进行预测，这种范式可以通过更广泛的接口和针对两个任务优化的中间表示来更好地将不确定性传播到下游。然而，这些方法仍然依赖于级联推理，其中检测错误仍然可能传播到预测中。推荐课程：面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码)。

我们的方法通过将检测和预测步骤重新表述为鸟瞰图（BEV）中的单个、更通用的轨迹细化任务来规避既定的级联方法，如图1c所示。在大多数自动驾驶流程中，规划器会接收一组随时间变化的对象轨迹，而不区分当前时间（检测）和未来（预测）。因此，我们将输出表述为一组对象轨迹，其中每条轨迹表示对象在BEV中从当前时间到未来的姿态。在这种表述中，检测仅仅是当前时间姿态的特例。

4. 方法

为了使自动驾驶车辆（SDV）能够规划出安全且可解释的操作，它必须获得对场景的全面理解，包括其他交通参与者当前的位置以及未来的位置。换句话说，自动驾驶车辆必须理解对象随时间变化的轨迹。由于道路相对平坦，鸟瞰图（BEV）已成为自动驾驶下游规划中实际采用的表示方式。因此，我们设计了DETRA，这是一种端到端模型，它将原始观测值转换为N个对象的BEV姿态轨迹集P，每个对象有F个未来假设，以及T个时间步长。这里的每个姿态都是一个三元组(x, y, θ)，用于描述对象的质心和航向（偏航角）。除了姿态外，它还预测了对象存在的置信度、对象的尺寸以及每个未来假设的概率。

图2展示了DETRA的概述。它由两部分组成：提取BEV场景表示和细化对象轨迹。我们解释了如何从激光雷达点云和高精度地图中提取场景的BEV表示。虽然这不是我们的主要贡献，但读者应该理解这些表示，因为它们是完成任务所必需的。然后，我们的核心贡献：一个细化转换器，它通过注意力机制随时间对多个对象和假设的姿态进行细化。最后，我们描述了用于以端到端方式在单个阶段内训练我们的方法的学习目标。

5. 实验结果

6. 总结 & 未来工作

在本文中，我们介绍了DETRA模型，该模型将检测和预测作为统一的轨迹细化任务来处理。我们设计了一个细化转换器架构，通过跨注意力机制对异构输入进行自我改进，并在时间、模式和对象维度上进行因式分解自注意力。我们在两个大规模自动驾驶数据集上进行的实验表明，我们的模型在性能上优于最新的模块化和端到端方法。重要的是，广泛的消融研究支持了我们的设计，表明所有组件都做出了积极贡献，我们提出的姿态细化至关重要，并且为了利用几何先验进行学习而做出了关键选择。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉工坊可提供顶会论文的课题如下：

自动驾驶新框架！DeTra：目标检测和轨迹预测大一统！

推荐体验

相关资讯

深度学习 AIGC大一统(GAN&Diffusion)2期

Meta-Transformer实现骨干网络大一统，12种模态，一个学习框架

OpenAI发布新模型GPT-4o，音频视觉文本实现“大一统”

DiT架构大一统：一个框架集成图像、视频、音频和3D生成，可编辑、能试玩

免费GPT-4o来袭，音频视觉文本实现「大一统」

近期资讯

索尼明年举办全球巡演音乐会，重新诠释《战神》等PS游戏

联想Tech World：英特尔和AMD史无前例的首次合作

升级A17 Pro！iPad mini 7上架苹果官网

合肥鑫丰科技取得半导体封装元件胶带去除辅助装置专利，便于工作人员进行铲胶操作

昆山协高申请预防压弯件回弹的冲压模具专利，能有效防止材料回弹造成的产品成型差

38年前的苹果MacintoshPlus被改造上网：每秒400字节，可问ChatGPT草莓单词中有几个 r 字母

千驰电子科技取得具有静电消除功能的干冰清洗机专利，实现静电的有效控制

逐际动力发布多形态双足机器人TRON 1，6.98万元起

联想集团成为 FIFA 国际足联官方技术合作伙伴

第三届OpenHarmony技术大会OS安全分论坛圆满举办

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响