当前位置:首页|资讯

TUM & Meta新作!3D高斯遇见扩散模型:从任意视点渲染真实物体!

作者:3D视觉工坊发布时间:2024-10-21

0. 论文信息

标题:L3DG: Latent 3D Gaussian Diffusion

作者:Barbara Roessle, Norman Müller, Lorenzo Porzi, Samuel Rota Bulò, Peter Kontschieder, Angela Dai, Matthias Nießner

机构:Technical University of Munich、Meta Reality Labs Zurich

原文链接:https://barbararoessle.github.io/l3dg/

官方主页:https://barbararoessle.github.io/l3dg/

1. 摘要

我们提出了L3DG,这是首个通过潜在3D高斯扩散公式进行3D高斯生成建模的方法。该方法能够实现有效的3D生成建模,可扩展至生成整个房间规模的场景,这些场景能够非常高效地渲染。为了实现3D高斯的有效合成,我们提出了一种潜在扩散公式,该公式在3D高斯的压缩潜在空间中进行操作。这个压缩潜在空间是由向量量化变分自编码器(VQ-VAE)学习的,我们采用稀疏卷积架构来高效地处理房间规模的场景。这样一来,通过扩散进行的昂贵生成过程的复杂性大大降低,从而在对象级别的生成上实现了更高的细节,同时也能够扩展到大型场景。利用3D高斯表示,生成的场景可以实时地从任意视角进行渲染。我们证明,与先前在无条件对象级辐射场合成方面的工作相比,我们的方法在视觉质量上有了显著提升,并展示了其在房间规模场景生成中的应用潜力。

2. 引言

3D内容的生成是许多计算机图形学应用的基础,从视频游戏和电影的资产创建,到增强现实、虚拟现实和沉浸式视觉媒体的创建。近年来,体渲染已成为3D内容的有力场景表示,因为它能够实现有效的梯度传播,从而生成令人印象深刻的逼真渲染效果。3D高斯已成为体渲染的一种特别流行的表示方法,它利用传统图形管道以获得实时速率的高保真渲染。通过优化实现快速渲染速度和平滑梯度,使得3D高斯成为生成3D建模的理想选择。

受单个对象神经辐射场生成建模成功的启发,我们旨在为3D高斯设计一个生成模型,该模型能够提供更具可扩展性、渲染效率更高的表示,用于3D生成建模。然而,这种3D高斯的生成建模仍然具有挑战性。特别是,这需要对不同大小场景的场景结构以及逼真外观的复杂性有共同的理解。此外,3D高斯是不规则结构的集合,通常包含大量数量不等的高斯,生成模型必须将其统一为一个有效的潜在流形。这需要一个灵活且可扩展的学习特征表示,以便可以从中训练生成模型。推荐课程:实时400FPS!高精NeRF/Gaussian SLAM定位与建图。

因此,我们提出了一种新的生成方法,用于无条件合成3D高斯,作为一种表示,它既能够使用约8000个高斯实现小规模单个对象的高保真视图合成,又能够有效扩展到包含约20万个高斯的房间规模场景。为了促进大规模环境的合成,我们制定了一个潜在3D高斯扩散过程。我们学习了一个基于3D高斯混合稀疏网格表示的3D高斯压缩潜在空间,其中每个稀疏体素编码一个相应的3D高斯。这个潜在空间被训练为向量量化变分自编码器(VQ-VAE),其对3D高斯的有效编码能够从对象扩展到3D房间,实现灵活的表示缩放。然后,我们在这个潜在3D高斯空间上通过扩散训练生成过程,从而实现了表示房间规模场景的高保真3D高斯合成。在对象和3D场景数据上的实验表明,我们的方法不仅比最先进的方法在对象合成方面产生了更高质量的结果,而且在扩展到大型场景方面也更为有效,实现了具有逼真视图合成的3D场景生成。与PhotoShape上的DiffRF相比,我们的潜在3D高斯扩散在FID指标上提高了约45%。

3. 效果展示

L3DG提出了使用学习的潜在空间的3D高斯模型的生成模型。这大大降低了昂贵的扩散生成过程的复杂性,允许对象级生成的更高细节,以及房间规模场景的可伸缩性。

L3DG学习3D高斯表示的压缩潜在空间,并通过潜在空间中的扩散有效地合成新场景。这种方法使L3DG可扩展到房间大小的场景,这些场景是从纯噪声生成的,导致可以实时渲染的3D高斯几何逼真场景。以上结果来自我们在3D-FRONT上训练的模型;我们可视化三维高斯椭圆体,并显示渲染。

4. 主要贡献

我们的贡献包括:

• 首次将3D高斯建模为生成潜在扩散模型,实现了房间规模场景3D高斯表示的有效合成,这些表示能够产生逼真的视图合成。

• 我们的潜在3D高斯扩散公式能够在由稀疏3D卷积构建的压缩潜在空间上进行灵活的生成建模,同时捕捉高保真对象以及更大的房间规模场景。

5. 方法

我们专注于3D高斯基元无条件合成的任务,将其作为一种具有实时渲染能力的高保真场景表示。为了实现对象的详细3D生成和扩展到房间大小的场景,我们的方法将高斯基元的3D表示提升到一个学习到的、压缩的潜在空间上,扩散模型可以在该空间上高效地操作。生成的潜在表示是在一个特征网格中学习的,该网格可以解码回一组3D高斯基元,以支持快速的新视图合成(图2)。为了在高斯基元和扩散模型操作的潜在表示之间有效地映射,我们引入了一个稀疏卷积网络,该网络实现了VQ-VAE。最后,我们的潜在扩散模型在我们的低维潜在空间中学习了一个去噪过程,以从纯噪声中无条件生成新的3D高斯场景。

6. 实验结果

7. 总结 & 未来工作

我们提出了L3DG,这是一种新颖的生成方法,用于对由三维高斯分布表示的三维场景分布进行建模。我们方法的核心思想是一个潜在的三维扩散模型,其潜在空间通过一个矢量量化变分自编码器(VQ-VAE)进行学习,我们为该编码器提出了一种稀疏卷积的三维架构。这有助于提升我们方法的可扩展性,并相较于现有工作显著提高了视觉质量。例如,与基于神经辐射场(NeRF)的生成器相比,L3DG可以实现更快的渲染,从而能够在大规模场景上进行训练。特别是,这使我们能够展示出向房间级场景生成迈出的第一步。总体而言,我们认为我们的方法在支持计算机图形学中各种应用的三维内容生成过程中,是一个重要的里程碑。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1