端到端没有数据怎么办？通过潜在世界模型增强端到端自动驾驶（中科院最新）

作者：自动驾驶之心发布时间：2024-10-31

添加小助理微信AIDriver004，加入自动驾驶之心近30+方向技术交流群！

加入自动驾驶之心知识星球，星球内凝聚了众多自动驾驶实战问题，以及各个模块的学习资料:近20门视频课程(星球成员免费学习)、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入!

端到端自动驾驶已经引起了广泛关注。当前的端到端方法在很大程度上依赖于诸如检测、跟踪和地图分割等感知任务的监督，以辅助学习场景表示。然而，这些方法需要大量的标注，阻碍了数据的可扩展性。为了应对这一挑战，我们提出了一种新颖的自监督方法，以增强端到端驾驶，而无需使用昂贵的标签。具体来说，我们的框架LAW使用潜在世界模型来基于预测的自身动作和当前帧的潜在特征来预测未来的潜在特征。这些预测的潜在特征由未来实际观察到的特征进行监督。这种监督同时优化了潜在特征学习和动作预测，从而极大地提高了驾驶性能。因此，我们的方法在无需昂贵标注的情况下，在开放环和闭环基准测试中均达到了最先进的性能。

领域背景介绍

端到端自动驾驶因其相对于传统方法的潜在优势而日益受到认可。传统规划器无法访问原始传感器数据，这会导致信息丢失和误差累积。相比之下，端到端规划器处理传感器数据以直接输出规划决策，这已被视为一个值得进一步探索的有前景的领域。

尽管大多数端到端自动驾驶方法以端到端的方式运行，但它们利用了各种辅助任务，如检测、跟踪和地图分割。这些辅助任务有助于模型学习更好的场景表示。然而，它们需要大量的手动标注，这既昂贵又限制了数据的可扩展性。相比之下，少数端到端方法没有采用感知任务，仅从记录的驾驶视频和轨迹中学习。这些方法可以利用大量可用数据，使其成为一个有前景的方向。然而，仅使用来自轨迹的有限指导使得网络难以学习有效的场景表示并实现最佳驾驶性能。

为了解决这个问题，如图1所示，提出了通过自监督学习来增强端到端驾驶。传统的自监督方法在图像处理中通常专注于静态的、单帧的图像。然而，自动驾驶涉及到一系列动态的输入，因此有效利用时间数据至关重要。驾驶的一个关键技能是基于当前环境预测未来状况。受此启发，我们提出了一个自监督任务，旨在预测潜在特征。开发了一个潜在世界模型，用于基于当前状态和自车动作预测未来状态，其中状态被表示为网络内的潜在场景特征。在训练过程中，提取未来帧的潜在特征来监督来自潜在世界模型的预测潜在特征。因此，我们共同优化了当前帧的潜在特征学习和轨迹预测。

此外，我们建立了一个简单但强大的规划器来提取视图相关的潜在特征，并作为所提出的潜在世界模型的测试平台。与以往方法不同，这个规划器没有包含临时模块和与感知相关的分支，这使得潜在世界模型的内部工作原理更加易于理解。给定这个规划器和潜在世界模型，我们有了副产品。由于潜在世界模型能够预测未来视图的潜在特征，可以跳过未来帧中某些视图的特征提取过程，并使用这些视图的预测未来作为替代。通过跳过某些视图的特征提取，提高了整个流程的效率。为了确定应该替换哪些视图，还提出了一个视图选择策略。结合视图潜在替代，该策略以最小的性能损失显著加快了整个流程。

总结来说，主要贡献如下：

提出了一个用于自监督学习的潜在世界模型（LAtent World model），它增强了端到端自动驾驶框架的训练。
基于潜在世界模型，进一步提出了一个视图选择策略，该策略在几乎不损失性能的情况下大大加快了整个流程。
LAW框架在无需手动标注的情况下，在开放环和封闭环基准测试中均取得了最先进的结果。

主要方法

整体方法论分为三个部分。首先开发了一个强大且通用的端到端规划器来提取潜在变量。接下来，基于这个端到端规划器，引入了一个世界模型来预测潜在变量。最后，由于预测的潜在变量可以替代一些不重要的潜在变量，因此提出了一种视图选择方法。

1）带有潜在变量提取的端到端规划器

在训练过程中，使用L1损失来衡量预测waypoint与真实waypoint之间的差异，表示为：

所提出的端到端规划器简单有效地提取了潜在特征，这为潜在世界模型提供了一个很好的测试平台。

2）潜在预测的世界模型

我们通过潜在世界模型获得了第t+1帧的预测视图潜在变量Pt+1：

潜在世界模型的网络架构是一个Transformer解码器，由两个block组成。每个block包含一个自注意力机制和FFN模块。自注意力是在视图维度上进行的。在训练过程中，使用端到端规划器提取第t+1帧的观测视图潜在变量Vt+1。Vt+1通过L2损失函数作为Pt+1的监督：

3）通过潜在替代的视图选择

这里提出了一种视图选择方法，这要归功于世界模型预测的有效视图潜在变量。该方法以多视图视频作为输入，动态选择一些信息丰富的视图来提取特征。其他视图则不被处理，它们对应的视图潜在变量由世界模型预测的视图潜在变量所替代。如图3所示，这一节包含三个组件。首先，给定几种潜在的视图选择策略，选择奖励预测组件会预测这些策略的奖励，并选择奖励最高的策略。然后，带选定视图的规划器在给定的选定视图下预测轨迹。在训练过程中，我们提出了一个选择奖励标注模块，该模块为每个选择策略分配一个奖励标签。

实验结果

参考

[1] Enhancing End-to-End Autonomous Driving with Latent World Model

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！重磅，自动驾驶之心科研论文辅导来啦，申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向，欢迎联系我们！

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内外最大最专业，近4000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频。

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向，目前近60+技术交流群，欢迎加入！

扫码添加汽车人助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

④【自动驾驶之心】全平台矩阵

手机录屏技术如同破晓的曙光，为我们的生活和工作带来了前所未有的便利。它不再只是简单的屏幕捕捉，更是创意的源泉、知识的传递、能量的释放。如今，你无须再为高昂的录屏软件费用而犹豫，因为手机自带的录屏功能已经足够强大。然而，对于追求极致体验和高效能的你来说，一款专业的手机录屏免费软件或许更能满足你的需求。让我们一同探索手机录屏的新境界，领略那些免费且功能强大的录屏工具所带来的魅力，共同开启录屏的新纪元！ [图片] 手机录屏免费1：手机自带录屏功能目前，大部分智能手机都自带了录屏功能，用户无须额外下载第三方应

keji1688 昨天

端到端没有数据怎么办？通过潜在世界模型增强端到端自动驾驶（中科院最新）

领域背景介绍

主要方法

1）带有潜在变量提取的端到端规划器

2）潜在预测的世界模型

3）通过潜在替代的视图选择

实验结果

参考

推荐体验

相关资讯

端到端开启新一轮自动驾驶产业革命

从特斯拉FSD看人工智能：端到端模型赋能自动驾驶

端到端模型能否解决自动驾驶的最后一公里难题？

辰韬资本联合三方重磅发布《端到端自动驾驶行业研究报告》

端到端语音指令识别模型示例：从数据生成到模型训练与测试

近期资讯

壁纸歼10（3）

手机录屏免费，录制高清视频，简单两招搞定

中兴被联想起诉专利侵权：难以理解，但表示尊重。

Stable Diffusion 3.5 Medium 消费级显卡的理想选择

高中语文：阅读理解答题公式及模板，背会不丢分！

沒看過正確的儒學傳教

Aducanumab 一种对聚集形式的淀粉样蛋白的人单克隆抗体-MCE

为什么要选择桨式搅拌机？

不看超后悔系列！

探索网络安全新境界：全球代理IP的应用与优势

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响