当前位置:首页|资讯

提升检测/跟踪/车道线多项任务!Panacea++:面向自动驾驶的全景可控视频生成

作者:自动驾驶之心发布时间:2024-10-03

添加小助理微信AIDriver004,加入自动驾驶之心近30+方向技术交流群!

求职交流必备!几千人的自动驾驶黄埔军校,到底有哪些硬菜?


加入自动驾驶之心知识星球,星球内凝聚了众多自动驾驶实战问题,以及各个模块的学习资料:近20门视频课程(星球成员免费学习)、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!


写在前面

自动驾驶领域对高质量标注视频训练数据的需求日益增长。基于早期Panacea工作,本文提出了Panacea+,一个强大且普遍适用的框架,用于生成驾驶场景中的视频数据。在之前的工作Panacea的基础上,Panacea+采用了一种多视角外观噪声先验机制和超分辨率模块,以增强一致性并提高分辨率。广泛的实验表明,Panacea+生成的视频样本极大地促进了不同数据集上的多种任务,包括nuScenes和Argoverse 2数据集上的3D目标跟踪、3D目标检测和车道检测任务。这些结果充分证明了Panacea+是自动驾驶领域一个有价值的数据生成框架。

领域背景介绍

在自动驾驶领域,鸟瞰图感知方法近年来引起了广泛的研究兴趣,在包括3D目标检测、地图分割、多目标跟踪和3D车道检测等关键感知任务中展现出显著潜力。通常,基于视频的BEV感知方法,如StreamPETR,在这些感知任务中,特别是需要理解视频序列中物体时间一致性的跟踪任务中,往往比基于图像的方法表现出更好的性能。为了实现优越的性能,这些基于视频的方法通常需要大规模、高质量的视频数据进行训练。然而,在实际场景中,获取此类数据面临着巨大挑战。传统的手动数据收集过程不仅成本极高,而且由于安全方面的考虑,还缺乏数据多样性。例如,在极端天气条件下收集数据几乎是不可能的。


鉴于上述问题,许多研究集中于合成可行的样本来扩充现有的自动驾驶数据集。一些努力集中在根据布局生成图像数据上。其它方法则解决了更为复杂的视频数据合成任务,以支持更先进的基于视频的感知方法。例如,MagicDrive 、DriveDreamer 和 Wovogen 都是基于鸟瞰图(BEV)布局序列生成视频样本的。之前的工作Panacea ,一个基于扩散模型的视频生成模型,也针对这一具有挑战性的任务。它能够根据鸟瞰图布局序列和文本控制信号,生成与驾驶场景对齐的高保真度多视角视频,有效地促进了检测任务中的感知模型性能。


然而,在变得更加实用之前,Panacea仍有改进的空间。在实际应用中,具有高时间一致性的合成训练数据至关重要,特别是对于依赖时间建模的任务(如跟踪)而言。在这方面,Panacea仍有增强的潜力。此外,已有研究表明,使用高分辨率数据训练感知模型可以显著提升性能。然而,Panacea目前生成的样本分辨率相对较低,为256×512。使用这样的合成数据来增强感知模型会限制其潜在性能的上限。


本文介绍了Panacea+,这是Panacea的增强版。Panacea+旨在将Panacea转变为一个更强大、更实用的数据生成框架,专为自动驾驶应用而设计。在Panacea结构的基础上,Panacea+集成了多视角外观噪声先验以增强一致性,并引入了超分辨率模块以实现更高分辨率的合成,如图1所示。Panacea+包括一个两阶段视频生成模型,该模型首先合成多视角图像,然后从这些图像中构建多视角视频。为了实现有效的多视角和时间建模,Panacea+采用了分解的4D注意力机制。在训练和推理过程中,引入了多视角外观噪声先验以增强一致性。为了实现可控生成,Panacea+通过ControlNet将鸟瞰图(BEV)布局作为控制信号进行集成。此外,在生成模块之后级联了一个超分辨率模块,以提高生成样本的分辨率。这些设计使Panacea+能够合成高质量、标注完善的多视角视频样本。

此外,在多个任务和数据集上进行了广泛的实验以进行全面验证。Panacea+被应用于nuScenes 和Argoverse 2 数据集,并在包括3D对目标跟踪、3D目标检测和车道检测在内的任务上进行了评估。这些实验结果表明,来自Panacea+的视频样本显著促进了感知模型的训练,在当前一代方法中达到了最先进的性能(SOTA)。卓越的性能验证了Panacea+对自动驾驶的重要价值。


综上所述,本文的主要贡献如下:


介绍了Panacea的改进版,名为Panacea+,这是一个数据生成框架,包括一个两阶段视频生成模块,该模块具有分解的4D注意力和多视角外观噪声先验,以实现一致性的生成,以及一个ControlNet以实现可控性。此外,还采用了超分辨率模块进行高分辨率合成。这种先生成低分辨率样本再扩展到高分辨率的成本效益高的框架,对于增强基于鸟瞰图(BEV)的感知模型非常有效。


除此之外,还进行了全面的评估以验证Panacea+的有效性。在广泛的设置下进行了大量实验,涵盖了多个数据集和任务。在当前的方法中,Panacea+精化了感知模型,在跟踪任务中达到了42.7的AMOTA,在检测任务中达到了53.8的NDS,均达到了最先进的性能。这些卓越的结果表明,Panacea+是一个强大且普遍适用的自动驾驶生成框架。

Panacea+方法介绍

1)预备知识:潜在扩散模型

扩散模型(DMs)通过学习迭代地去噪正态分布噪声ϵ来近似数据分布p(x)。具体来说,DMs首先通过等式1中的固定前向扩散过程构建扩散输入xt。其中,αt和σt代表给定的噪声计划,t表示扩散时间步。然后,训练一个去噪模型ϵθ来估计从扩散输入xt中添加的噪声ϵ。这是通过最小化均方误差来实现的,如等式2所示。一旦训练完成,DMs就能够通过迭代采样xt,从随机噪声xT ∼ N(0, I)中合成新的数据x0,如等式3所示。其中,µθ和Σθ是通过去噪模型ϵθ确定的。

潜在扩散模型(LDMs)是扩散模型的一种变体,它在潜在表示空间内运行,而不是在像素空间内,从而有效地简化了处理高维数据的挑战。这是通过感知压缩模型将像素空间图像转换为更紧凑的潜在表示来实现的。具体来说,对于图像x,该模型使用编码器E将x映射到潜在空间z = E(x)。然后,可以通过解码器D将潜在代码z重构回原始图像x,即x = D(z)。LDMs的训练和推理过程与传统DMs密切相似,如等式1-3所述,只是将x替换为潜在代码z。

2)生成高质量多视角视频

模型利用一个多视角视频数据集进行训练。每个视频序列包含T帧,表示序列长度,V个不同视角,以及高度和宽度的维度H和W。Panacea+建立在Stable Diffusion(SD)之上,SD是一个强大的预训练图像合成潜在扩散模型。虽然SD模型在图像生成方面表现出色,但由于序列中不同视角和帧之间缺乏约束,其直接应用无法生成一致的多视角视频。为了同时建模时间一致性和空间一致性,采用了基于分解的4D注意力机制的UNet来同时生成整个多视角视频序列。联合扩散输入z的结构维度为H×(W×V )×T×C,其中C表示潜在维度。这个多视角视频序列是通过将帧在其宽度方向上拼接而成的,这与其固有的全景特性一致。图3(a)展示了Panacea+的整体训练框架。此外,为了获得更好的一致性,采用了多视角外观噪声先验。除了基于4D注意力的UNet之外,还使用了两阶段生成管道来大幅提升生成质量。此外,为了探索高分辨率训练对感知任务的有效性,我们将超分辨率模块集成到整体框架中。这样,我们的框架就能够合成高分辨率、高质量的视频数据,从而为感知任务提供强有力的支持。

分解的4D注意力:分解的4D注意力旨在同时建模视角和时间一致性,同时保持计算效率。它受到近期视频表示学习探索的启发,将原本内存密集型的4D联合注意力分解为更高效的结构。分解的4D注意力选择性地保留了最关键的部分:相邻视角之间的注意力和空间对齐的时间块之间的注意力。这导致了两个注意力模块——跨视角注意力和跨帧注意力——与现有的单视角空间注意力并存。


图3(b)详细展示了分解的4D注意力机制。单视角注意力保留了Stable Diffusion(SD)模型中原始空间自注意力的设计,如等式4所示。为了增强跨视角一致性,引入了跨视角注意力。观察表明,相邻视角之间的相关性至关重要,而非相邻视角之间的相关性则相对不那么重要,可以忽略不计。这种跨视角注意力如等式5所示。跨帧注意力借鉴了VLDM[36]的设计,专注于空间对齐的时间块。这一组件对于赋予模型时间感知能力至关重要,这是生成时间上连贯视频的关键因素。

两阶段pipeline:为了提升生成质量,进一步采用了两阶段训练和推理pipeline。通过绕过时间感知模块,模型还可以作为多视图图像生成器运行,从而为两阶段视频生成提供统一的架构。在训练过程中,首先训练一组专门用于多视角图像生成的权重。然后,如图3所示通过将条件图像与扩散输入拼接在一起来训练第二阶段视频生成的权重。这个条件图像仅与第一帧集成,而后续帧则使用零填充。值得注意的是,在第二阶段训练中,使用真实图像作为条件,而不是生成的图像。这种方法使训练过程在效率上与单阶段视频生成方案相当。


在推理过程中,如图4所示,首先使用第一阶段的权重来采样多视角帧。随后,使用第二阶段的权重,基于最初生成的帧来生成多视角视频。这种两阶段pipeline显著提高了视觉保真度,这一结果可归因于空间和时间合成过程的分解。

其中λ是控制第一多视图帧特征量的系数。

3)生成可控驾驶场景视频

在提出的用于推动自动驾驶系统发展的“Panacea+”模型中,合成样本的可控性成为了一个关键属性。“Panacea+”集成了两类控制信号:一类是粗粒度的全局控制,包括文本属性;另一类是细粒度的布局控制,涉及BEV(鸟瞰图)布局序列。粗粒度的全局控制使得“Panacea+”模型能够生成多样化的多视角视频。这是通过将CLIP编码的文本提示集成到UNet中实现的,该方法类似于Stable Diffusion中使用的方法。得益于Stable Diffusion的预训练模型,“Panacea+”能够根据文本提示合成特定的驾驶场景。


“Panacea+”的细粒度布局控制有助于生成与标注相一致的合成样本。使用BEV(鸟瞰图)布局序列作为条件。具体来说,对于一个持续时间为T的BEV序列,将其转换为透视视图,并提取控制元素作为目标边界框、目标深度图、道路图和相机姿态嵌入。图3(d)展示了这一过程,使用不同颜色表示的不同通道来描绘这些分割元素。这产生了具有19个通道的布局控制图像:其中10个用于深度,3个用于边界框,3个用于道路图,3个用于相机姿态嵌入。然后,我们使用ControlNet框架将这些19通道的图像集成到UNet中。

在这里,(u, v) 表示图像中的像素坐标,d 是沿着与图像平面正交的轴方向的深度,而 1 是为了方便在齐次形式下进行计算而添加的。我们选取两个点,并将它们的深度分别设置为 d1 = 1 和 d2 = 2。然后,可以通过以下方式计算对应相机光线的方向向量:

我们通过除以向量的模长来规范化方向向量,并乘以255以简单地将其转换为RGB伪彩色图像。

实验结果对比

1)数据集和评估指标

对Panacea+的生成质量和可控性进行了评估,并评估了其在nuScenes数据集和Argoverse 2数据集上对自动驾驶的益处。


nuScenes数据集。nuScenes数据集是一个公开的驾驶数据集,包含来自波士顿和新加坡的1000个场景。每个场景是一个20秒的视频,包含约40帧。它提供了700个训练场景、150个验证场景和150个测试场景,每个场景都有6个摄像头视角。这些摄像头视角相互重叠,覆盖了整个360度视野。


Argoverse 2数据集。Argoverse 2数据集是一个公开的自动驾驶数据集,包含1000个场景,每个场景长度为15秒,标注频率为10Hz。它被分为700个训练场景、150个验证场景和150个测试场景。这些数据来源于7个高分辨率摄像头,覆盖了360度视野。我们使用10个类别来评估它。


生成质量指标。利用逐帧的FID和FVD来评估合成数据的质量。其中,FID反映了图像质量,而FVD是一个时间感知指标,它同时反映了图像质量和时间一致性。


可控性指标。Panacea+的可控性通过生成的视频与条件化的鸟瞰图(BEV)序列之间的一致性来展示。为了证实这种一致性,在nuScenes和Argoverse 2数据集上评估了感知性能。对于3D目标跟踪任务,采用了如AMOTA、AMOTP和MOTA等指标。对于3D检测,在nuScenes数据集上使用了nuScenes检测分数(NDS)、平均精度(mAP)、平均方向误差(mAOE)和平均速度误差(mAVE),在Argoverse 2数据集上则使用了复合检测分数(CDS)和mAP。StreamPETR,一种最先进的基于视频的感知方法,是我们评估nuScenes的主要工具。对于Argoverse 2,使用Far3D作为我们的评估模型。对于车道检测,使用MapTR评估mAP。为了评估生成样本的可控性,使用预训练的感知模型将生成数据的验证性能与真实数据的验证性能进行比较。将训练集扩充作为性能提升策略的可能性进一步反映了Panacea+的可控性。


2)实施细节

基于Stable Diffusion 2.1实现了我们的方法。使用预训练权重来初始化UNet中的空间层,在两阶段训练过程中,第一阶段的图像权重优化了56k steps,第二阶段的视频权重优化了40k steps。对于推理,使用配置了25个采样步骤的DDIM采样器。扩散模型以256×512的空间分辨率生成视频样本,帧长为8。然后,超分辨率模块将帧在空间上放大到512×1024。训练时的外观噪声先验系数为0.05,推理阶段为0.07。为了评估,在nuScenes上使用StreamPETR进行3D检测和跟踪,其基于ResNet50骨干网络。在Argoverse 2上使用Far3D进行目标检测,也以ResNet50为骨干网络。对于车道检测,使用以R18为主干网络的MapTR。

3)量化分析

生成质量:最初采用定量指标FVD和FID来评估生成的多视角视频的质量和保真度,并将它们与自动驾驶领域图像和视频合成的最先进(SOTA)方法进行比较。如表I所示,与所有SOTA方法相比,我们的方法获得了最佳的FVD和FID分数。与图像合成方法相比,尽管我们的任务是更具挑战性的视频生成,但我们的FID仍然具有优势。例如,比MagicDrive高出0.7分。与BEVGen和BEVControl相比,也展现出显著优势。此外,与视频合成方法相比,方法也表现出色。提出的方法专注于合成具有出色时间一致性的视频样本,因此,FVD可以有效地反映样本一致性的质量。可以观察到,与前作Panacea相比,Panacea+的FVD提高了36分,表明时间一致性得到了改善。与其他SOTA方法相比,我们的方法也表现良好。例如,FVD分数比SubjectDrive低21分。与这些视频合成方法相比,在FID方面也具有优势。例如,在FVD方面略优于Drivedreamer-2,同时在FID方面实现了显著更优的改进,这表明视频的高质量。

可控性:利用预训练的StreamPETR来评估生成样本的可控性。在真实和合成的nuScenes验证集上测试了检测指标NDS。通过比较它们的相对性能,测量了生成样本与鸟瞰图(BEV)布局的一致性。这种一致性程度反映了视频合成的可控性。从表II中可以看出,由Panacea+合成的验证集达到了34.6的NDS,这相当于真实数据集NDS的74%。这表明生成的视频样本中有很大一部分与BEV控制信号保持一致。此外,与Panacea相比,提高了2.5分。这证明了生成视频可控性的提高,从而带来了在一致性方面的益处。因此,我们的合成数据样本有可能为下游任务,特别是与时间动态紧密相关的任务(如自动驾驶中的跟踪)提供更大的帮助。

自动驾驶任务的增强:鉴于我们的最终目标是辅助自动驾驶系统,将生成的样本用作感知模型的训练资源。为了确保验证的完整性,在多个下游任务上进行了实验,包括3D目标跟踪、3D目标检测和车道线检测。在这些任务中,跟踪最能反映时间一致性的重要性。所有的实验都使用了一个仅使用真实数据集训练的基线模型。然后,在训练过程中引入了等量的合成数据,以评估其带来的好处。


3D目标跟踪任务性能。如表III所示,在512×256的分辨率下,使用Panacea+生成的样本进行训练,获得的AMOTA为34.6,比仅使用真实数据训练的基线高出3.5分,代表了性能的显著提升。此外,与Panacea相比,0.9分的提升表明Panacea+确实增强了视频的一致性。此外,还探索了更高分辨率的影响,并观察到在1024×512的分辨率下,绝对性能峰值达到42.7,这比同分辨率下的基线高出5.1分,比512×256分辨率下的基线高出12.6分。这不仅表明具有更高分辨率的合成样本更有效地辅助了跟踪任务,还证明了我们的合成数据在更高的基线水平上实现了优异的相对性能。与最先进的方法相比,从表V中可以看出,Panacea+在跟踪任务中实现了最佳性能,作为合成高分辨率、高质量视频样本的整体模型,它超越了以前的方法。例如,它在AMOTA方面比DriveDreamer-2高出11.4分。这一显著优势凸显了Panacea+在生成高保真视频样本方面的卓越能力,这些样本不仅在质量上出类拔萃,还显著提升了自动驾驶中的跟踪能力。


在表V中,与当前最优方法(SOTA)的比较也展示了Panacea+的卓越性能。我们实现了53.8的MAP,超越了所有当前的自动驾驶场景生成方法。这一成就凸显了Panacea+的有效性。对于Argoverse 2数据集,还对用于3D目标检测的增强数据集训练进行了评估。从表VI可以看出,CDS和mAP分别提高了1.1和0.9个点。这表明我们的生成模型在不同数据集上也是有效的。


车道检测任务的表现。通过将道路地图控制信号集成到我们的合成样本中,显著提升了车道检测任务的性能。我们利用合成数据在nuScenes数据集上训练了先进的感知模型MapTR。如表VI所示,我们实现了6.0个点的显著改进。这一大幅提升突显了我们的模型在车道检测方面的卓越能力,表明其有可能显著改善现有感知模型的性能。


4)量化分析

生成质量。如图5所示,Panacea+展示了从鸟瞰图(BEV)序列和文本提示中生成逼真多视角视频的能力。生成的视频表现出显著的时间一致性和跨视角一致性。我们展示了八个连续帧中的所有视角,以充分展示视频样本。可以看出,Panacea+成功地合成了高质量样本,同时保持了时间一致性和视角一致性。

自动驾驶的可控性。我们从两个方面展示了Panacea+的可控性。首先是粗粒度的文本控制。图6展示了属性控制能力,展示了如何通过修改文本提示来操纵天气、时间和场景等元素。这种灵活性使我们的方法能够模拟各种罕见的驾驶场景,包括极端天气条件如雨雪,从而显著增强数据的多样性。此外,图7展示了车辆和道路如何与BEV布局精确对齐,同时保持优异的时间一致性和视角一致性,展示了Panacea+的细粒度可控性。


一些结论与限制

Panacea+是一个强大且多用途的数据生成框架,用于为驾驶场景创建可控的全景视频。该框架中融入了一个分解的4D注意力模块,以确保时间一致性和跨视角一致性,并采用多视角外观噪声先验来进一步增强一致性。此外,还采用了一种两阶段策略来提高生成质量。Panacea+擅长处理各种控制信号以生成带有精确标注的视频。此外,Panacea+还集成了一个超分辨率模块,以探索高分辨率对感知模型的好处。通过在不同任务和数据集上进行的大量实验,Panacea+已证明其能够生成有价值的视频,服务于广泛的鸟瞰图(BEV)感知领域。


局限性:Panacea+仍有很大的探索空间。目前,实验依赖于从现有数据集的标注信号中合成的视频。在未来,可以与模拟器集成或开发生成控制信号的方法。此外,由于计算成本相对较高,未来的探索可以集中在采用更高效的计算方法上。此外,模型扩展方面还有进一步研究的潜力,特别是对于使用transformer结构的扩散模型,这目前是一个有前景的方向。

参考

[1] Panacea+: Panoramic and Controllable Video Generation for Autonomous Driving.

 

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!重磅,自动驾驶之心科研论文辅导来啦,申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向,欢迎联系我们!

 


① 全网独家视频课程

 

BEV感知、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

 


网页端官网:www.zdjszx.com

 

② 国内首个自动驾驶学习社区

 

国内外最大最专业,近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频


 

③【自动驾驶之心】技术交流群

 

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!

 

扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

 


④【自动驾驶之心】全平台矩阵



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1