当前位置:首页|资讯

BMCV 2024 | 跨视角不确定性,让无人机助力更鲁棒的道路场景合成

作者:3D视觉工坊发布时间:2024-10-16

本文旨在解决传统道路场景合成技术中仅用车辆视角导致新视角合成鲁棒性较差的问题。为此,清华大学智能产业研究院赵昊老师团队提出了巧妙结合航拍与地面信息的道路场景合成新方法,该方法首次将跨视角不确定性融入3D-GS的训练之中,有效利用了航拍信息,全面提升了道路合成效果。

论文名称:Drone-assisted Road Gaussian Splatting with Cross-view Uncertainty
论文链接:https://arxiv.org/pdf/2408.15242
项目网址:https://sainingzhang.github.io/project/uc-gs/
代码链接:https://github.com/SainingZhang/uc-gs/

一.数据集&研究动机

3D-GS是近期备受瞩目的3D表示方法,因其高效和出色的质量在业内引起了广泛关注。然而,对于道路场景合成任务来说,受限于狭窄车辆视角数据集的影响,3D-GS很难实现鲁棒的新视角合成。因此,本文试图利用航拍图像丰富的视角信息辅助道路场景的合成。

为了更好地量化道路合成效果,本文基于虚幻引擎构建了真实城市道路场景的仿真数据集。为了模拟现实世界中的驾驶条件,我们在1.5米和1.8米的高度捕获前视图像,在20米的高度,向下60°采集航拍图像。在1.6米和1.9米高度的测试数据上评估视角变化。

图1. 地面数据视角示意图

本文首先进行了空地数据联合训练与仅地面数据训练的对比实验。从图2各个指标的虚实线对比可知,与仅使用地面图像训练相比,空地联合训练可以在道路视角平移与旋转时一定程度上减缓各指标的下降趋势。然而,联合训练在保留测试集上反而略有下降。这可能由于航拍图像中与道路场景不重叠的区域或对道路场景合成贡献很小的区域,不仅未能增强道路视角的合成,还对3D高斯的收敛也构成了更多挑战。这导致联合训练不能有效提升道路场景的合成效果。

本文采用跨视角不确定性的方法在训练过程中对航拍图像的像素进行加权,合理利用了航拍数据中对道路场景合成的有效信息,增强了仿真数据集上的测试效果。

图2. 不同方法在地面数据或地面和航拍数据训练的结果。(G)为仅用地面数据训练,(A+G)为空地数据联合训练。View(+0.1m)为上升0.1m测试,View(+0.1m 5°d)为上升0.1m向下倾斜5°测试。

二.方法

2.1 框架

本文首先采用基于集合渲染的方法来计算不确定性,量化3D高斯模型在地面图像上的学习结果。接下来,将地面不确定性投影到空中,构建跨视角不确定性。随后,我们将这种跨视角不确定性引入到3D高斯模型的训练中,作为损失函数中航拍图像的权重,同时保留地面图像的原始渲染损失。

图3.框架

2.1.1 不确定性计算

为了量化航拍图像各个像素对道路合成的贡献,本文从另一个角度出发,试图先量化地面数据单独训练的效果。因此,本文采用了一种基于集合渲染的不确定性计算方法,首先仅用地面数据训练了多个3D-GS,然后计算出地面视角上渲染结果的RGB方差作为地面不确定性。不确定性值越高,说明该区域的学习效果越不稳定,越需要对应航拍信息的补充。

2.1.2 跨视角不确定性的投影

为了将地面不确定性转换为航拍数据的权重,本文采用了最近在多个3D任务中创下了SOTA的端到端稠密立体模型——DUSt3R,作为航拍图像和地面图像之间的2D-2D像素匹配器。通过这种方式,地面不确定性通过地面图像与航拍图像之间的匹配对投影到空中,并对具有多个匹配的像素的不确定性进行平均,构建了用于训练的跨视角不确定性图。

图4. 跨视角不确定性可视化

2.1.3 基于跨视角不确定性的3D-GS训练范式

本文在Scaffold-GS研究的基础上展开,因此延用了Scaffold-GS的损失函数设置,包括RGB损失和SSIM损失。针对地面数据,本文采用了与3D-GS传统方法一致的训练策略,将所有像素的损失权重设置为1。对于航拍数据,本文首先对视角间的不确定性进行了归一化和平滑处理。随后,在训练过程中,利用这些处理后的不确定性值对航拍图像的每个像素损失的计算进行加权。

三.实验结果

为了验证本文方法的有效性,本文在两个城市道路场景的仿真数据集(NYC、SF)上进行了实验。

表1. 在NYC (a)和SF (b)上的实验结果。*为高清航拍数据。(G)、(A+G)分别为仅用地面数据训练与空地联合训练。

定量分析 由表1,本文方法在保留测试集与视角平移与旋转时,均优于所有仅在地面数据训练的方法。具体表现为在保留测试集上PSNR提高了0.68 (NYC)和0.41 (SF),视角平移与旋转时PSNR提高了0.90 (NYC) 和0.80 (SF),SSIM与LPIPS也均有进步。在Scaffold-GS的横向对比上,本文方法相比空地联合训练在保留测试集上PSNR提高了0.66 (NYC) 和0.59 (SF),视角平移与旋转时PSNR提高了0.47 (NYC)和 0.57 (SF) ,并且逆转了空地联合训练对SSIM与LPIPS的负面影响,全部指标甚至优于用高清航拍数据辅助训练的效果。

图4.与仅用地面数据训练的方法的定性对比

图5.Scaffold-GS上不同训练方法的定性对比

定性分析 定性上,无论是与仅用地面数据训练的方法还是在Scaffold-GS上的横向对比,本文方法在道路细节的渲染上明显优于其他方法。

四.结论

本文提出了一种创新的基于3D-GS的无人机辅助道路场景合成方法。为了利用无人机视角中的丰富信息来辅助地面数据的训练,我们首次将跨视角不确定性的概念融入3D-GS模型中,在训练过程中对航拍图像中的像素进行加权。这种方法减少了冗余信息的干扰,有效地利用航拍图像辅助道路场景合成。未来的工作将致力于可动态调节的不确定性权重,对于场景几何的讨论以及真实数据集上的应用。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊可提供顶会论文的课题如下:




Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1