所有指标优于现有SOTA！MVPBEV：具有可控和泛化性的BEV多视图图像生成

作者：自动驾驶之心发布时间：2024-10-25

添加小助理微信AIDriver004，加入自动驾驶之心近30+方向技术交流群！

加入自动驾驶之心知识星球，星球内凝聚了众多自动驾驶实战问题，以及各个模块的学习资料:近20门视频课程(星球成员免费学习)、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入!

写在前面

这项工作旨在解决从给定的鸟瞰图（BEV）语义信息的文本提示中生成多视角RGB图像的问题。与以往忽视布局一致性、缺乏处理详细文本提示的能力或无法泛化到未见视角的方法不同，MVPbev通过两阶段设计同时生成不同视角的跨视角一致图像，从而在测试时实现目标级控制和新颖视角的生成。具体来说，MVPbev首先利用相机参数将给定的BEV语义信息投影到透视图中，使模型能够泛化到未见视角。然后，引入了一个多视角注意力模块，其中采用了特殊的初始化和去噪过程，以明确强制跨视角单应性变换下重叠视图之间的局部一致性。最后但同样重要的是，MVPbev通过优化预训练的文本到图像的扩散模型，进一步实现了测试时的实例级可控性。在NuScenes数据集上进行了广泛的实验，结果表明，提出的方法能够从数千个训练样本的文本描述中生成高分辨率的光照真实感图像，在各种评估指标下均优于最先进的方法。此外，我们还借助新颖的评估指标和全面的人为分析，进一步展示了我们的方法在泛化性和可控性方面的进步。

当前领域背景

多视图图像对自动驾驶任务非常有益。如今，包括安装在前部和侧部的多视图摄像头已成为大型驾驶数据集（如NuScenes、Argoverse和Waymo）中的基本要求。通常，来自多个摄像头视角的图像会被感知并进一步以鸟瞰图（BEV, Bird-Eye-View）的形式表示，随后进行预测和规划等下游任务。直观上，BEV提供了对现实世界的直观接口，因此具有更高的可解释性，对高级建模和决策制定非常有益且实用。

尽管在自动驾驶任务中非常重要，但可靠的BEV表示在训练阶段需要大量的数据，这些数据的获取或标注可能非常耗时。解决这一数据问题的一个直观方法是使用生成模型来获取多样化的视角RGB图像及其对应的BEV语义信息。与对应的视角RGB图像或语义信息相比，多样化且合理的BEV语义信息在参数化表示的帮助下更容易以现实的方式进行模拟。因此，假设已知BEV语义信息而非视角RGB图像是自然而实用的。接下来的问题就是如何利用已知的BEV语义信息生成跨视角且在视觉和语义上保持一致的逼真RGB图像。

为此，本文提出了一种新颖的两阶段方法MVPbev，旨在通过明确执行跨视角一致性来生成具有给定BEV语义和文本提示的可控多视角RGB图像（见图1）。与现有工作中缺乏测试时泛化能力的方法不同，MVPbev进一步允许在测试时更改视角和详细的文本提示，从而在无需额外训练数据的情况下，通过人工分析获得令人满意的性能。为实现这一目标，MVPbev包括两个阶段，即视角投影和场景生成阶段。前一阶段根据相机参数将给定的BEV语义转换为多个视角视图。一方面，它通过明确的几何变换强制跨视角的全局一致性。另一方面，这种设计将两个阶段解耦，使第二阶段能够更好地捕获与视角无关的属性。MVPbev的第二阶段从一个预训练的稳定扩散（SD）模型开始。通过明确引入跨视角一致性模块，结合我们的噪声初始化和去噪过程设计，它能够生成多视角视觉上一致且逼真的图像，特别是在重叠的视野（FOV）中。为了进一步提高测试时对象的泛化能力，我们的MVPbev分别处理前景实例和背景布局，从而在推理过程中实现更好的可控性。

在NuScenes上验证了我们的想法，并遵循了标准的数据集划分。与那些专注于改进下游任务或语义一致性的方法不同，我们进行了额外的大量人工分析，特别是针对多个视角重叠视野中的视觉一致性、测试时视角和文本提示的变化。证明了提出的方法不仅提供了更好的测试时可控性和泛化能力，而且还生成了高质量的跨视角RGB图像。简而言之，贡献可以概括如下：

• 一种新颖的多视角图像生成方法，能够仅使用数千张图像作为训练数据，从BEV语义中生成语义和视觉上一致的视角RGB图像。

• 一种更可控且可扩展的算法，能够生成逼真的视角RGB图像。

• 在大型驾驶数据集上实现了最先进的性能，并进行了全面的人工分析。

MVPbev方法介绍

1）语义一致性的视图投影

2）视角一致的图像生成

仅仅关注单个透视角的语义可能导致不同视图之间的内容不一致，特别是在重叠的视野（FOV）中。例如，在多个视图（如前方、前右方、后方和后左方）的视野中出现的建筑物和植被具有不同的外观。这是由于跨视图相机之间缺乏交互。这里想要指出的是，这种不一致性既不会通过鸟瞰图（BEV）布局分割来反映，也不会通过目标检测指标来反映，因为它仅影响背景类别。

受此启发，我们提出在方法上和实验上都应关注这些重叠区域。就提出的方法而言，通过估计重叠区域的单应性，对背景内容施加强烈的连贯性约束，然后利用多视角注意力模块隐式地强制不同视图的风格与估计的对应点保持一致。在这种情况下，不仅可以在提供语义的背景布局区域上强制外观一致性，而且还可以在缺少控制信号的其他区域上强制外观一致性。就评估目的而言，引入人为分析来提供可靠评估，以判断生成的图像，特别是重叠区域，是否真实。

3）模型训练与推理

推理：如上所述，MVPbev可以扩展到实例级别的可控性。MVPbev允许用户点击目标实例并提供特定颜色的要求。为了实现这一点，提出了一种针对多个前景目标控制的特殊机制，该机制通过操纵交叉注意力层的响应来准确指导实例级别的合成。假设可以通过现有方法或简单检索在每个视图中获得实例级别的掩码。首先分别使用其配对的提示获得实例级别和场景级别的潜在变量。然后，它们与这些二进制实例级别掩码有效结合，从而实现更一致的空间性能。请注意，MVPbev在前景对象上的这种能力是无需训练的，从而导致了更好的可扩展性和测试时可控性。

实验对比

数据集：在NuScenes数据集上验证了我们的想法，该数据集由六个camera提供的360度全景覆盖。它包含了波士顿和新加坡的1000个街景场景示例，每个场景持续20秒，以12Hz的频率捕获。除了140万张摄像头图像外，NuScenes还提供了多模态数据，包括全局地图层和在4万个关键帧上标注的3D目标边界框。遵循700/150/150的标准划分来进行训练、验证和测试。

参考

[1] MVPbev: Multi-view Perspective Image Generation from BEV with Test-time Controllability and Generalizability

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！重磅，自动驾驶之心科研论文辅导来啦，申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向，欢迎联系我们！

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内外最大最专业，近4000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频。