专为驾驶场景而生！上交&华师DrivingForward：珠联璧合拿下SOTA~

作者：自动驾驶之心发布时间：2024-09-30

论文作者 | Qijian Tian等

编辑 | 自动驾驶之心

添加小助理微信AIDriver004，加入自动驾驶之心近30+方向技术交流群！

求职交流必备！几千人的自动驾驶黄埔军校，到底有哪些硬菜？

加入自动驾驶之心知识星球，星球内凝聚了众多自动驾驶实战问题，以及各个模块的学习资料:近20门视频课程(星球成员免费学习)、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入!

写在前面&笔者的个人理解

目前，具备智驾技术的自动驾驶汽车都会配备环视相机来捕捉周围的3D环境。3D场景重建对于自动驾驶系统理解驾驶场景至关重要，此外，从稀疏的车载摄像头实时准确地重建驾驶场景有助于自动驾驶中的各种下游任务，包括在线建图、BEV感知和3D目标检测。

然而，各类下游任务所需的实时计算和稀疏的周围视图对驾驶场景重建提出了挑战。从目前来看，NeRF和3DGS显著推动了3D场景重建任务的发展，但目前最新的相关技术通常需要较多的图像以及比较长时间的计算时间才能重建出一个场景，导致这些重建方法并不适用于自动驾驶中的实时下游任务，从而限制了它们的实用性。

考虑到上述提到的相关问题，我们的目标是从稀疏的环视视图中实现在线、可泛化的3D驾驶场景重建。考虑到在线和可泛化的3D驾驶场景重建面临的挑战包括实时处理、稀疏的周围视图和最小重叠以及输入帧数量的可变性，我们提出了一种新颖的前馈3DGS算法模型，可以从灵活稀疏的环视图像中实时重建驾驶场景，该算法称之为DrivingForward。

在nuScenes数据集上进行的大量实验结果表明，我们提出的DrivingForward算法模型在各种输入下的新视图合成方面优于其他前馈算法模型。与具有相同输入的场景优化方法相比，DrivingForward算法还实现了更高的重建质量。下图展示了我们提出的DrivingForward与最新相关算法的表现性能比较。

论文链接：https://arxiv.org/pdf/2409.12753v1；

网络模型的整体架构&细节梳理

在详细介绍本文提出的DrivingForward算法模型之前，下图展示了我们提出的DrivingForward算法的整体网络结构。

通过上图可以看出，整体而言，我们选择N个稀疏相机图像作为输入，最终得到3D场景重建结果。DrivingForward算法模型在训练过程中从大规模驾驶场景数据集中学习强大的先验知识，并在推理阶段从稀疏的车载摄像头以前馈的方式实现实时驾驶场景重建。

具体而言，一个位姿网络P和深度估计网络D从输入图片中预测车辆的运动以及像素的深度信息。我们将每个像素分配给一个高斯基元，并通过估计的深度定位位置。高斯基元的其他参数由高斯网络G预测。我们将所有视图中的高斯基元投影到3D场景空间中，以可区分的方式将它们渲染到目标视图上，并端到端联合训练整个算法模型。在推理阶段，深度估计网络和高斯网络用于前馈重建。由于尺度感知定位和其他参数的预测不依赖于其他帧，我们可以在推理过程中灵活地输入不同数量的环视帧数据信息。

尺度感知定位

原始的3DGS重建算法显式地使用一组高斯基元来建模场景。该算法使用来自运动的结构来初始化高斯位置，并通过基于splat的光栅化渲染对其进行优化。相反，为了实现无需测试时优化的前馈推理，我们直接从输入图像以像素为单位预测高斯基元，并将每个像素分配给一个基元。这样，准确定位高斯基元的位置是高质量重建的关键，因为它决定了基元的中心。然而，在驾驶场景中，稀疏摄像机之间的有限重叠限制了从多个视图获得的几何关系。我们改为估计单帧的深度图，而不依赖于其他帧。为了获得多帧一致的深度，我们提出了一种受自监督环视深度估计启发的尺度感知定位，它在训练期间从多帧环视中学习尺度感知深度，并在推理期间从周围视图的不同帧中独立预测真实尺度的深度，从而实现一致的尺度感知高斯定位。

具体而言，我们在尺度感知定位中引入了位姿网络以及深度网络。在训练阶段，我们从稀疏的车载摄像头输入多帧环视图像。姿态网络预测车辆运动，深度网络估计深度图，用公式表述如下。

在具有多帧周围视图的驾驶场景中，我们将不同的输入作为源图像来计算光度损失。首先，我们使用来自同一相机的不同帧的图像，表示为时间上下文。然后，我们使用来自同一帧的相邻相机的图像，表示为空间上下文。我们还结合了这两种方式，使用来自不同帧的相邻相机的图像，表示为时空上下文。关键是利用空间和时间相邻图像之间的小重叠进行匹配，这提供了尺度信息并能够在训练期间学习尺度感知的相机运动和深度图。

单张图像的高斯参数预测

然后，融合编码器结合了以及来自深度网络编码器的图像特征。

联合训练策略

通过对每个输入视图应用尺度感知定位和高斯参数预测，我们获得所有图像的高斯基元。然后将这些基元聚合到3D空间中以形成3D表达。通过3DGS中基于splat的光栅化渲染可以实现新颖的视图合成。

我们联合训练整个模型，包括深度网络、位姿网络和高斯网络。对于深度和位姿网络的warp操作，我们使用spatial transformer网络从源图像中采样合成图像。为了在3D空间中获得高斯基元后渲染新颖的视图，基于splat的光栅化渲染也是完全可微的。这两个操作以及其他可微分部分使端到端的联合训练成为可能。我们将来自深度网络的图像特征融合到高斯网络中。此共享特征将尺度感知位置与其他高斯参数的预测联系起来，使高斯网络能够利用来自时间和空间上下文的尺度信息。此外，它还促进了整个模型的收敛。

通过联合训练策略，我们在一个阶段实现了尺度感知定位和高斯参数预测，并支持灵活的多帧输入，因为预测独立地依赖于周围视图的每一帧数据信息。

实验结果&评价指标

由于我们的方法是最早探索实时重建驾驶场景的方法之一，目前尚无可用的基准。因此，我们定义了两种新颖的视图合成模式，以适应不同的比较方法。第一种方法是单帧模式（Single Frame，SF），即给定时间戳t，目标是在时间戳t+1时刻合成下一帧的周围环视图像。另外一种是多帧模式（Multi Frame，MF），即给定两个间隔帧的环视图像，即时间戳t-1和t+1时刻的环视图像，目标是合成时间戳时刻的中间环视图像。使用两种新颖的视图合成模式，我们将我们的方法与前馈和场景优化重建方法进行了比较，相关的实验结果汇总在如下的表格当中。

通过上图的实验结果可以看出，尽管我们调整了方法以适应baseline的不同设置，但我们在相应配置下的所有指标上都优于它们。此外，为了更加直观的展示我们提出的算法模型的优越性，我们也将相关的结果进行了可视化。

通过可视化的结果可以看出，我们的DrivingForward算法模型取得了最高质量的效果，即使是对于具有挑战性的细节，例如左前视图中的交通标志和右后视图中带有文字的纪念碑。其他方法在这些区域中显示出明显的伪影，而我们的方法合成了清晰的新颖视图而没有此类伪影。

我们将我们的前馈方法与代表场景优化方法的原始3DGS进行了比较。在SF模式下，我们训练模型并从验证集中选择前三个场景。然后，我们针对每个场景分别优化3DGS模型，并将3DGS模型渲染的新视图图像与我们的进行比较。下表展示了三个场景的平均测试时间和指标。3DGS需要几分钟来合成场景的新视图。相比之下，我们的前馈方法在半秒内完成此操作，并且无需过多的测试时间优化即可实现更高的重建质量。

此外，我们也比较了不同算法之间的运行时间和内存消耗，统计结果如下表所示。

通过统计结果也可以明显的看出，我们在运行时间和内存消耗等方面都更有优势。

结论

在本文中，我们提出了一个前馈Gaussian Splatting算法模型，用于在输入环视图像的情况下实现实时的驾驶场景重建，该算法称之为DrivingForward。此外，我们提出的DrivingForward算法模型不需要深度真值信息，并且在训练过程中不受外部因素的影响。相关的实验结果表明，在推理阶段，与现有的前馈和场景优化重建方法相比，我们提出的算法模型比其他方法更快，并且对驾驶场景实现了更高的重建质量。

参考

[1] DrivingForward: Feed-forward 3D Gaussian Splatting for Driving Scene Reconstruction from Flexible Surround-view Input

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！重磅，自动驾驶之心科研论文辅导来啦，申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向，欢迎联系我们！

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内外最大最专业，近4000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频。

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向，目前近60+技术交流群，欢迎加入！

扫码添加汽车人助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

④【自动驾驶之心】全平台矩阵

专为驾驶场景而生！上交&华师DrivingForward：珠联璧合拿下SOTA~

写在前面&笔者的个人理解

网络模型的整体架构&细节梳理

尺度感知定位

单张图像的高斯参数预测

联合训练策略

实验结果&评价指标

结论

参考

推荐体验

相关资讯

当ChatGPT遇到数字人，珠联璧合带来极致体验！

360周鸿祎：ChatGPT成功是微软和OpenAI的珠联璧合

科大讯飞与华为“珠联璧合”，携手打造自主创新通用智能新底座

“邪恶版”ChatGPT 出现：毫无道德限制，专为“网络罪犯”而生？

首款GH200主机开卖：售价47500欧元起、专为AI而生

近期资讯

我国实现“县县通千兆、乡乡通5G”

为什么以色列袭击俄罗斯基地？F35真的被摧毁了吗？

苹果折叠屏手机遇难题！折痕问题成最大障碍

终于见到葛大爷啦！感谢汽车之家带我看《爆款好人》

小红书不知道写什么类型笔记？速读这篇！

湖北卓能取得可提高容量的锂电池专利，提高电池的充放电性能

未来的数字守护者：网络安全的前沿探索

Meta发布文生视频工具Movie Gen，可生成16秒视频并配音频

Meta新文生视频模型Movie Gen官方宣传片

德国财长：反对对华电动汽车加征关税，欧委会不应引发贸易冲突

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响