添加小助理微信AIDriver004,加入自动驾驶之心近30+方向技术交流群!
加入自动驾驶之心知识星球,星球内凝聚了众多自动驾驶实战问题,以及各个模块的学习资料:近20门视频课程(星球成员免费学习)、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
这项工作旨在解决从给定的鸟瞰图(BEV)语义信息的文本提示中生成多视角RGB图像的问题。与以往忽视布局一致性、缺乏处理详细文本提示的能力或无法泛化到未见视角的方法不同,MVPbev通过两阶段设计同时生成不同视角的跨视角一致图像,从而在测试时实现目标级控制和新颖视角的生成。具体来说,MVPbev首先利用相机参数将给定的BEV语义信息投影到透视图中,使模型能够泛化到未见视角。然后,引入了一个多视角注意力模块,其中采用了特殊的初始化和去噪过程,以明确强制跨视角单应性变换下重叠视图之间的局部一致性。最后但同样重要的是,MVPbev通过优化预训练的文本到图像的扩散模型,进一步实现了测试时的实例级可控性。在NuScenes数据集上进行了广泛的实验,结果表明,提出的方法能够从数千个训练样本的文本描述中生成高分辨率的光照真实感图像,在各种评估指标下均优于最先进的方法。此外,我们还借助新颖的评估指标和全面的人为分析,进一步展示了我们的方法在泛化性和可控性方面的进步。
多视图图像对自动驾驶任务非常有益。如今,包括安装在前部和侧部的多视图摄像头已成为大型驾驶数据集(如NuScenes、Argoverse和Waymo)中的基本要求。通常,来自多个摄像头视角的图像会被感知并进一步以鸟瞰图(BEV, Bird-Eye-View)的形式表示,随后进行预测和规划等下游任务。直观上,BEV提供了对现实世界的直观接口,因此具有更高的可解释性,对高级建模和决策制定非常有益且实用。
尽管在自动驾驶任务中非常重要,但可靠的BEV表示在训练阶段需要大量的数据,这些数据的获取或标注可能非常耗时。解决这一数据问题的一个直观方法是使用生成模型来获取多样化的视角RGB图像及其对应的BEV语义信息。与对应的视角RGB图像或语义信息相比,多样化且合理的BEV语义信息在参数化表示的帮助下更容易以现实的方式进行模拟。因此,假设已知BEV语义信息而非视角RGB图像是自然而实用的。接下来的问题就是如何利用已知的BEV语义信息生成跨视角且在视觉和语义上保持一致的逼真RGB图像。
为此,本文提出了一种新颖的两阶段方法MVPbev,旨在通过明确执行跨视角一致性来生成具有给定BEV语义和文本提示的可控多视角RGB图像(见图1)。与现有工作中缺乏测试时泛化能力的方法不同,MVPbev进一步允许在测试时更改视角和详细的文本提示,从而在无需额外训练数据的情况下,通过人工分析获得令人满意的性能。为实现这一目标,MVPbev包括两个阶段,即视角投影和场景生成阶段。前一阶段根据相机参数将给定的BEV语义转换为多个视角视图。一方面,它通过明确的几何变换强制跨视角的全局一致性。另一方面,这种设计将两个阶段解耦,使第二阶段能够更好地捕获与视角无关的属性。MVPbev的第二阶段从一个预训练的稳定扩散(SD)模型开始。通过明确引入跨视角一致性模块,结合我们的噪声初始化和去噪过程设计,它能够生成多视角视觉上一致且逼真的图像,特别是在重叠的视野(FOV)中。为了进一步提高测试时对象的泛化能力,我们的MVPbev分别处理前景实例和背景布局,从而在推理过程中实现更好的可控性。
在NuScenes上验证了我们的想法,并遵循了标准的数据集划分。与那些专注于改进下游任务或语义一致性的方法不同,我们进行了额外的大量人工分析,特别是针对多个视角重叠视野中的视觉一致性、测试时视角和文本提示的变化。证明了提出的方法不仅提供了更好的测试时可控性和泛化能力,而且还生成了高质量的跨视角RGB图像。简而言之,贡献可以概括如下:
• 一种新颖的多视角图像生成方法,能够仅使用数千张图像作为训练数据,从BEV语义中生成语义和视觉上一致的视角RGB图像。
• 一种更可控且可扩展的算法,能够生成逼真的视角RGB图像。
• 在大型驾驶数据集上实现了最先进的性能,并进行了全面的人工分析。
图像编辑和生成是计算机视觉中的热门话题。尽管这可能与大量文献相关,但这里将重点关注两个研究方向,即条件图像生成和新视角图像合成,因为它们密切相关。
条件图像生成:生成模型,如高斯混合模型和贝叶斯网络,一直是机器学习和计算机视觉领域长期的研究问题,因为它们能够解释复杂的数据分布。特别是,图像生成模型不仅对无监督特征学习具有重要意义,而且还支持图像编辑等应用。随着深度学习技术(如自回归模型、变分自编码器(VAEs)和生成对抗网络(GANs))的兴起以及海量数据的出现,我们观察到了质量极高的逼真图像。其中,条件GANs已被广泛研究,考虑了包括离散标签、文本和图像在内的各种约束。最近,稳定扩散模型被广泛用于根据文本描述生成详细的图像。与现有技术相比,它们不仅展示了最先进的图像生成质量,而且在基础模型的帮助下展现了出色的泛化能力。随后,Controlnet通过允许多样化的条件控制(如深度、语义或草图),在保持原有鲁棒性的同时,大大提高了扩散模型的整体性能。尽管取得了令人印象深刻的进展,但多视角或跨视角文本到图像的生成仍然面临计算效率和跨视角一致性的问题。
为此,MVDiffusion提出了一种新颖的对应关系感知注意力模块,该模块能够从文本中创建多视图图像,并保持全局对应关系。尽管MVDiffusion能够提供良好的多视角RGB图像,但它无法推广到更剧烈的视角变化或更小的重叠区域。可能包括BEVGen、BEVControl和MagicDrive在内的并行工作与我们的工作最为接近。第一个工作通过采用具有跨视角注意力的自回归转换器,基于BEV语义生成了多视角视觉一致的图像。而后两个工作则结合图像草图/语义和文本,利用跨视角跨对象注意力来更专注于单个内容的一致性。然而,现有的工作都没有实现测试时的泛化能力,例如视角变化或详细的实例级文本提示。它们也没有对图像生成质量进行人工分析。相比之下,我们提出了同时利用全局和局部一致性来增强语义和视觉连贯性的方法,并结合我们的无训练目标控制方法来加强详细的实例级控制。此外,我们还提供了全面的人工分析,以更可靠地证明我们方法的有效性。
新视角图像合成:新视角图像合成方法大致可分为基于几何的方法和基于学习的方法两大类。前者试图首先估计(或伪造)近似的基础三维结构,然后对输入图像中的像素应用一些变换以产生输出。而后者则认为新视角图像合成从根本上说是一个学习问题,因为否则它将是严重缺乏约束的。最近,属于第二类的神经辐射场(NeRF)在特定场景的新视角图像合成方面表现出了令人印象深刻的性能,它通过神经网络隐式地编码volumetric密度和颜色。从小规模场景开始,也提出了场景级NeRF,如Block-NeRF,从而通过重建大规模环境来支持重要的用例,如自动驾驶和航空勘测。相比之下,我们的方法将BEV语义和文本描述作为输入,并输出多视角RGB图像。
1)语义一致性的视图投影
2)视角一致的图像生成
仅仅关注单个透视角的语义可能导致不同视图之间的内容不一致,特别是在重叠的视野(FOV)中。例如,在多个视图(如前方、前右方、后方和后左方)的视野中出现的建筑物和植被具有不同的外观。这是由于跨视图相机之间缺乏交互。这里想要指出的是,这种不一致性既不会通过鸟瞰图(BEV)布局分割来反映,也不会通过目标检测指标来反映,因为它仅影响背景类别。
受此启发,我们提出在方法上和实验上都应关注这些重叠区域。就提出的方法而言,通过估计重叠区域的单应性,对背景内容施加强烈的连贯性约束,然后利用多视角注意力模块隐式地强制不同视图的风格与估计的对应点保持一致。在这种情况下,不仅可以在提供语义的背景布局区域上强制外观一致性,而且还可以在缺少控制信号的其他区域上强制外观一致性。就评估目的而言,引入人为分析来提供可靠评估,以判断生成的图像,特别是重叠区域,是否真实。
3)模型训练与推理
推理:如上所述,MVPbev可以扩展到实例级别的可控性。MVPbev允许用户点击目标实例并提供特定颜色的要求。为了实现这一点,提出了一种针对多个前景目标控制的特殊机制,该机制通过操纵交叉注意力层的响应来准确指导实例级别的合成。假设可以通过现有方法或简单检索在每个视图中获得实例级别的掩码。首先分别使用其配对的提示获得实例级别和场景级别的潜在变量。然后,它们与这些二进制实例级别掩码有效结合,从而实现更一致的空间性能。请注意,MVPbev在前景对象上的这种能力是无需训练的,从而导致了更好的可扩展性和测试时可控性。
数据集:在NuScenes数据集上验证了我们的想法,该数据集由六个camera提供的360度全景覆盖。它包含了波士顿和新加坡的1000个街景场景示例,每个场景持续20秒,以12Hz的频率捕获。除了140万张摄像头图像外,NuScenes还提供了多模态数据,包括全局地图层和在4万个关键帧上标注的3D目标边界框。遵循700/150/150的标准划分来进行训练、验证和测试。
[1] MVPbev: Multi-view Perspective Image Generation from BEV with Test-time Controllability and Generalizability
投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!重磅,自动驾驶之心科研论文辅导来啦,申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向,欢迎联系我们!
① 全网独家视频课程
BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习)
网页端官网:www.zdjszx.com
② 国内首个自动驾驶学习社区
国内外最大最专业,近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频。
③【自动驾驶之心】技术交流群
自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!
扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)
④【自动驾驶之心】全平台矩阵