让3D GS具有跨场景泛化能力！首个即插即用的通用3DGS模块

作者：3D视觉工坊发布时间：2024-10-18

0. 论文信息

标题：GS-Net: Generalizable Plug-and-Play 3D Gaussian Splatting Module

作者：Yichen Zhang, Zihan Wang, Jiali Han, Peilin Li, Jiaxun Zhang, Jianqiang Wang, Lei He, Keqiang Li

原文链接：https://arxiv.org/abs/2409.11307

1. 引言

光线追踪级别的实时三维场景渲染一直是计算机视觉领域一项重要且具挑战性的任务，广泛应用于自动驾驶等领域。近年来，神经辐射场（Neural Radiance Fields, NeRF）在该领域取得了显著进展，能够在不显式建模三维场景、纹理或光照的情况下实现高保真渲染。然而，NeRF的随机采样和体渲染计算量大，严重影响其性能，导致渲染速度缓慢。为了满足实时神经渲染的需求，引入了三维高斯溅射（3D Gaussian Splatting, 3DGS）方法，该方法通过高斯椭球表示场景，并利用快速光栅化生成高质量图像。

然而，3DGS通常仅处理单个场景，并通过运动恢复结构（Structure from Motion, SfM）从稀疏但几何精确的点云中初始化高斯椭球参数，随后使用光度损失函数进行迭代优化和密度控制。这种方法需要为每个场景建立单独的模型，缺乏跨场景的泛化能力。此外，3DGS对从SfM点云中启发式初始化高斯椭球敏感。如果稀疏点云未能捕获场景细节，这种依赖性会阻碍进一步优化并限制其实用性。

为解决这些挑战，我们提出了GS-Net，一个可泛化的即插即用3DGS模块。该模块以稀疏点云为输入，生成更密集的高斯椭球，允许在不同场景间进行训练和测试，克服了传统3DGS的场景边界限制。作为即插即用模块，GS-Net具有实用性和兼容性，适用于所有3DGS框架。为了全面评估GS-Net在自动驾驶场景中的性能，我们创建了CARLA-NVS数据集，支持从12个相机视角进行训练和评估。实验表明，GS-Net在渲染质量上取得了显著提升。

2. 首个

3D Gaussian Splatting (3DGS)集成了基于图元的表示和体积渲染技术的优势，实现了实时、高质量的渲染。然而，3DGS模型通常过度适合于单场景训练，并且对高斯椭球的初始化高度敏感，高斯椭球是从运动结构(SfM)点云启发式地导出的，这限制了通用性和实用性。为了解决这些限制，我们提出了GS-Net，这是一个通用的即插即用3DGS模块，可以从稀疏的SfM点云中加密高斯椭球，增强几何结构表示。据我们所知，GS-Net是第一个具有跨场景泛化能力的即插即用3DGS模块。此外，我们介绍了卡拉-NVS数据集，它结合了额外的摄像机视点，以彻底评估重建和渲染质量。大量实验表明，将GS-Net应用于3DGS，对于传统视点产生了2.08 dB的PSNR改进，对于新视点产生了1.86 dB的改进，证实了该方法的有效性和鲁棒性。

3. 效果展示

4. 主要贡献

我们的主要贡献如下：

1）我们提出了GS-Net，一个可泛化的即插即用3DGS模块，旨在从稀疏的SfM点云中生成密集的初始高斯椭球及其参数。据我们所知，这是第一个直接从稀疏点云中学习高斯椭球的网络。

2）GS-Net作为即插即用模块，具有强大的实用性和兼容性，可应用于3DGS框架及其衍生模型。推荐课程：实时400FPS！高精NeRF/Gaussian SLAM定位与建图。

3）我们开发了CARLA-NVS数据集，该数据集首次提供了12个密集视角的图像，支持对场景重建和渲染质量进行全面评估，并支持自动驾驶感知任务。

5. 方法

在原始的三维高斯溅射（3DGS）方法中，高斯椭球的初始属性是通过从稀疏的SfM点云中使用启发式方法生成的。这种启发式、特定于场景的初始化策略既限制了方法的泛化能力，又忽略了不同场景的独特特征。此外，由于输入的稀疏性，它在纹理不足的区域难以捕获精细细节。这些缺点导致模型在处理新视角或远距离场景时鲁棒性降低。

为解决这些问题，我们提出了GS-Net，一个可泛化的即插即用3DGS模块，如图1所示。该网络以稀疏点云为输入，增强了跨场景的泛化能力和鲁棒性。考虑到不同场景的特定特征，GS-Net生成预测的密集椭球，更好地表示场景特征并减少随机性。

6. 实验结果

7. 总结 & 未来工作

本文介绍了GS-Net，这是一个可泛化的即插即用3DGS模块，能够为自动驾驶提供跨场景渲染能力，并具有强大的特征提取和几何表示能力。作为即插即用解决方案，GS-Net展现了出色的实用性和与3DGS及其衍生产品的兼容性。为了评估其性能，我们开发了支持12个相机视角的CARLA-NVS数据集。实验结果表明，GS-Net在保持可比渲染速度的同时，显著提高了传统和新颖视角下的3DGS渲染质量。未来的工作将集中在优化泛化能力和精度上，并计划在获得认可后发布CARLA-NVS数据集。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉工坊可提供顶会论文的课题如下：