当前位置:首页|资讯

NeurlPS'24开源!3DGS-Enhancer:利用扩散先验增强无界3D GS!

作者:3D视觉工坊发布时间:2024-10-29

1. 导读

新视图合成旨在从多个输入图像或视频中生成场景的新视图,最近的进展如3D高斯分布(3DGS)在使用高效管道生成照片级真实感渲染方面取得了显著的成功。然而,在具有挑战性的设置下,如稀疏输入视图,生成高质量的新视图仍然很困难,因为欠采样区域中的信息不足,经常导致明显的伪像。本文提出了一种新的流水线技术3DGS-Enhancer,用于提高3DGS表示的质量。我们利用2D视频扩散先验来解决具有挑战性的3D视图一致性问题,将其重新表述为在视频生成过程中实现时间一致性。3DGS-Enhancer恢复渲染的新视图的视图一致性潜在特征,并通过时空解码器将它们与输入视图集成。然后,增强的视图用于微调初始3DGS模型,从而显著提高其渲染性能。在无界场景的大规模数据集上的大量实验表明,与最先进的方法相比,3DGS-Enhancer产生了优越的重建性能和高保真渲染结果。

2. 引言

新颖视图合成(Novel-view Synthesis,NVS)在计算机视觉和图形学领域已有数十年的历史,其目标是从多个输入图像或视频中生成场景的视图。最近,3D高斯溅射(3D Gaussian Splatting,3DGS)凭借其高效渲染管线,在生成逼真渲染图像方面表现出色。然而,在稀疏视图设置下,由于欠采样区域信息不足,从远离现有视点的位置渲染高质量的新颖视图仍然极具挑战性。如图1所示,当仅有三个输入视图时,会出现明显的椭球状和空洞伪影。由于实践中这些常见的低质量渲染结果,增强3DGS以确保其在实际应用中的可行性至关重要。

据我们所知,很少有先前的研究专门关注旨在提高NVS渲染质量的增强方法。大多数现有的NVS增强工作侧重于将额外的几何约束(如深度和法线)纳入3D重建过程,以填补观测区域与未观测区域之间的空白。例如,DNGaussian对辐射场的几何形状应用了硬软深度正则化。然而,这些方法高度依赖于额外约束的有效性,且往往对噪声敏感。

另一项工作利用生成先验来正则化NVS管道。例如,ReconFusion通过为未观测区域合成几何形状和纹理来增强神经辐射场(Neural Radiance Fields,NeRFs)。尽管它可以生成逼真的新颖视图,但当生成的视图远离输入视图时,视图一致性仍然是一个挑战。

在本文中,我们利用2D生成先验(如潜在扩散模型LDM)来增强3DGS表示。LDM在各种图像生成和恢复任务中已展现出强大且稳健的生成能力。然而,主要挑战在于生成的2D图像之间缺乏良好的3D视图一致性,这严重阻碍了需要高度精确视图一致性的3DGS训练过程。尽管已经做出了一些努力,例如使用得分蒸馏采样(Score Distillation Sampling,SDS)损失来提炼预训练扩散模型的优化目标,但它无法生成允许渲染高保真图像的3D表示。

受多视图图像之间的视觉一致性与视频帧之间的时间一致性之间类比的启发,我们提出将具有挑战性的3D一致性问题重新定义为更容易的视频生成中实现时间一致性的任务,从而我们可以利用强大的视频扩散模型来恢复高质量且视图一致的图像。我们提出了一种新颖的3DGS增强管道,称为3DGS-Enhancer。3DGS-Enhancer的核心是一个视频LDM,它包括一个用于编码渲染视图潜在特征的图像编码器、一个用于恢复时间一致潜在特征的基于视频的扩散模型,以及一个用于有效整合原始渲染图像中的高质量信息与恢复的潜在特征的时空解码器。通过这些增强的视图对初始3DGS模型进行微调,以提高其渲染性能。所提出的3DGS-Enhancer可以无需轨迹地从稀疏视图中重建无界场景,并为两个已知视图之间的不可见区域生成自然的3D表示。一项并发工作V3D[7]也利用潜在视频扩散模型[4]从单张图像生成对象级别的3DGS模型。相比之下,我们的3DGS-Enhancer专注于增强任何现有的3DGS模型,因此可以应用于更广泛的场景,例如无界的户外场景。

在实验中,我们基于DL3DV在数百个无界场景上生成了包含低质量和高质量图像对的大规模数据集,以全面评估新研究的3DGS增强问题。实验结果表明,所提出的3DGS-Enhancer方法在各种具有挑战性的场景上实现了卓越的重建性能,产生了更加清晰和生动的渲染结果。代码和生成的数据集将公开发布。

3. 效果展示

3DGS-Enhancer改进了具有稀疏输入视图的无界场景上的3D高斯分布表示。

4. 主要贡献

本文的贡献总结如下:

据我们所知,这是第一项解决增强低质量3DGS渲染结果问题的工作,该问题在实际3DGS应用中普遍存在。

我们提出了一种新颖的管道3DGS-Enhancer来解决3DGS增强问题。3DGS-Enhancer将3D一致图像恢复任务重新定义为时间一致的视频生成,从而可以利用强大的视频LDM来生成高质量且3D一致的图像。我们还设计了新颖的3DGS微调策略,以有效地将增强的视图与原始的3DGS表示相结合。推荐课程:实时400FPS!高精NeRF/Gaussian SLAM定位与建图。

我们在无界场景的大规模数据集上进行了广泛的实验,以证明所提出的方法相较于现有的最先进的少样本NVS方法的有效性。

5. 方法

本文创新性地将具有挑战性的3D一致图像恢复任务重新定义为视频恢复任务,这是基于多视图一致性与视频时间一致性之间的类比。我们提出了一种名为3DGS-Enhancer的新框架,该框架采用视频潜在扩散模型(Latent Diffusion Model,LDM),该模型包含一个图像编码器、一个基于视频的扩散模型和一个时空解码器,旨在增强渲染图像的同时保持高度的3D一致性。3DGS-Enhancer还采用了新颖的微调策略,以选择性地将在视频LDM中增强的视图整合到3DGS微调过程中。3DGS-Enhancer框架的示意图如图2所示。下文将详细讨论该框架的更多细节。

6. 实验结果

在DL3DV测试集上,使用3、6和9个输入视图的定量和定性结果分别如表1和图4所示。我们的方法在峰值信噪比(PSNR)、结构相似性指数(SSIM)和感知图像块相似性(LPIPS)得分上均优于所有其他基线方法。基于神经辐射场(NeRF)的方法,包括Mip-NeRF和FreeNeRF,由于平滑不一致而产生模糊的新视图。相比之下,3DGS由于局部最小值收敛而产生拉长的椭圆形伪影。DNGuassian通过深度正则化减少了伪影,但导致新视图模糊且带有噪声。

图4中的第一个示例展示了3DGS-Enhancer在去除伪影的同时保持视图一致性的能力。通过使用视频扩散模型对输入视图进行插值,我们融入了更多信息,同时确保了高视图一致性,从而能够生成高质量的新视图并避免陷入局部最小值。第二个示例突出了3DGS-Enhancer在恢复高频细节方面的优势。我们的数据集处理策略和视频扩散模型使我们能够理解各种场景中的强大多视图先验。因此,即使是非常具有挑战性的情况,如树木,也能以清晰的细节进行恢复。综上所述,与基线方法的比较表明,我们的方法具有显著改进无界3DGS表示的潜力,能够为开放环境合成高保真新视图。

7. 总结 & 限制性 & 未来工作

本文介绍了3DGS-Enhancer,这是一个统一的框架,它应用视频扩散中的视图一致性先验,并使用轨迹插值方法来增强无界3DGS(三维高斯球面)表示。通过结合图像和像素级别的置信度与3DGS微调,我们在新视图合成(NVS)增强方面取得了最先进的性能。然而,我们的方法依赖于相邻视图进行连续插值,因此不易适应于单视图3D模型生成。此外,基于置信度的3DGS微调策略相对简单直接。未来,将置信图直接集成到视频生成模型中会很有趣,这样可以在无需后处理的情况下生成更符合真实3D世界的图像。同时,利用3DGS高效的数据生成能力为我们的视频生成模型构建大规模数据集,为提高模型的3D一致性提供了绝佳机会。这种方法还促进了2D模型直接从2D图像理解3D世界,而无需额外的几何约束。关于社会影响,本文的目标是推进3D重建和新视图合成领域的发展。我们的工作有许多潜在的社会影响,但我们认为没有必要在此特别强调。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

3D视觉工坊可提供顶会论文的课题如下:




Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1