当前位置:首页|资讯|深度学习|ChatGPT|自动驾驶

从UniAD到FSD V12,我们为什么一定要坚持端到端?

作者:3D视觉工坊发布时间:2024-07-18

作者:泡椒味的口香糖,编辑:计算机视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

0. 什么是端到端?

“端到端”本身是深度学习中的概念,英文为“End-to-End(E2E)”,指的是一个AI模型,只要输入原始数据就可以输出最终结果。比如最近很火的ChatGPT,它就是一个典型的端到端模型,输入文字语句,直接就能得到回答。

对于自动驾驶来说,目前对于“端到端”还没有一个统一的定义,因此不同语境下的端到端可能会存在一定的差异。但从学术界爆火的UniAD,以及工业界领路人特斯拉FSD v12 来看,端到端的定义是将检测、跟踪、建图、轨迹预测、占位预测、规划等等的自动驾驶子任务,全部整合到一个大模型中,实现一体化。

1. 中国学者的第一篇最佳论文:UniAD

这篇文章的名字是Planning-oriented Autonomous Driving(以路径规划为导向的自动驾驶),由上海人工智能实验室、武汉大学及商汤科技联合完成。UniAD是2023年CVPR的Best Paper,也是近十年来,计算机视觉三大顶级国际会议(CVPR、ICCV、ECCV)上,第一篇以中国学术机构作为第一单位的最佳论文

这篇文章讲的是啥呢

在自动驾驶任务中,主流方案通常单独处理三个子任务:分别是感知、预测和规划。由此导致的缺陷也是比较明显,要么是任务之间协调不足,要么是影响到了整体性能的提升。基于这样的一个背景,这篇论文便首次提出了感知决策一体化的自动驾驶通用大模型。

简单看一下Pipeline

UniAD共包含了四个Transformer结构的感知和预测模块,分别对应于TrackFormer、MapFormer和MotionFormer、OccFormer,以及最后一个规划模块Planner。在整个自驾场景中,查询扮演的角色为通信管道,用于建模不同模块之间的交互。

总结一下:UniAD是一个综合框架,将全栈驾驶任务整合到一个基于Transformer的端到端网络中。根据论文显示,在nuScenes真实场景数据集中,UniAD的所有任务均达到SOTA!也代表了端到端在自动驾驶领域的一个里程碑

2. 特斯拉FSD V12.3.6:端到端的真正大范围部署

6月25日下午,何小鹏在微博,发布了自己在美国硅谷,体验FSD V12.3.6版本的视频。这段路上,FSD整体表现非常老练。何小鹏表示,除了有些地方比较犹豫,绝大部分处理感觉很安心,像正常司机的驾驶。

特斯拉为什么这么强?

因为特斯拉V12第一次做到了从感知到规划的完全端到端,是一个很革命的算法,这一点上是全面碾压V11的,也是实现CV到规划控制的第一次落地的尝试。而且特斯拉V12是非常大规模的部署(宣称有100万辆车在路上跑)。

3. 为什么一定要端到端?

以前的自动驾驶Pipeline是模块化的设计思路,你想要做规划,那你就要做感知、做定位、做跟踪、做导航,你要定义并且输出非常多的数据格式,比如车道线的具体方程、前车的位姿、信号灯的坐标,然后下个模块再读取这些结构体。每当新的需求/任务来临时,我们还要针对需求做相应的适配。

模块化似乎更容易理解,但真的对吗

我们思考一下人类司机的开车逻辑,你开车的时候真的计算了路上车道线的方程吗?你真的知道前车准确的速度和经纬度吗?

那么,计算这些结构体似乎就没有必要,并且每个模块的编写和适配,要消耗非常多的人力和时间,这也是为什么华为自动驾驶有6000多个工程师。

而特斯拉V12的端到端方案,不仅不需要感知和适配这些冗余的结构体,还将代码量从30万行降低到了2000行,这也是为什么FSDV12可以做到每周更新。对比之下,Waymo以及国内竞品的成本要高得多,每开一个新城都要用新车去铺,还要搭建高精地图,再加上研发成本,一个城市几乎要一个亿。

所以端到端才是未来!

4. 端到端是AI工程师的白日梦?

深度学习时代,模型一直都在往端到端的方向演化,但为什么直到最近两年端到端才爆火起来呢?

因为,端到端也是AI工程师的白日梦。如果你训练过深度学习模型,就一定会遇到各种各种的不拟合、损失函数Nan、加入新模块不work、缺数据、过拟合等等一大堆的问题。大家都在喊端到端,大家都在训练模型,可实际做起来又会出现各种各样的不work的问题,这时候你就会质疑自己,你会不停地发出感慨:

我对深度学习失去信心了!

深度学习的可解释性很弱,所以端到端模型在出现bug时也必然很难找出问题。神经网络最大的难题不是训练模型,而是将训练任务拆解为实际的问题,并验证这个问题是可以被解决的。

所以,UniAD和特斯拉V12最大的影响在于,他们证明了端到端是有效的!他证明了这条路是可行的,我们无需再去验证这条路是否正确,只需要坚定地走下去!

5. 端到端还有何瓶颈?

端到端很好,但是还有几个关键问题需要解决:

(1)对传感器布置的依赖。大模型是对训练数据的分布非常敏感的,基本只拟合于当前的传感器配置。当我们加入一个新的传感器,或者每换一辆不同型号的车,我们都需要完全重新训练一次模型。现在特斯拉的V12也有一些视觉不可达的盲区,为了解决这个盲区,肯定要修改传感器的数量、分布、配置,那整个模型都要重新训练,实际也是一个非常大的工程。

(2)对数据的依赖。中国的路况复杂度比美国高了十倍不止,所以就算特斯拉FSD V12在美国跑的再好,它直接拿到中国肯定也是不work的。面对中国这种地狱难度的道路(尤其重庆),需要采集非常非常多的数据来训练。但也有好处,就是中国级别的路况搞定之后,全球其他地方也都能搞定。

(3)政策的管控。AI伦理一直都是一个难点,解决这个冲突必然需要很长的一段路。

本文仅做学术分享,如有侵权,请联系删文。

计算机视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉大模型工业3D视觉SLAM自动驾驶三维重建无人机等方向,细分群包括:

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

除了这些,还有求职硬件选型视觉产品落地最新论文3D视觉最新产品3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

3D视觉学习知识星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1