当前位置:首页|资讯

NeurlPS'24 | 三维重建新范式!GaussianCube:构建高质量3D模型

作者:3D视觉工坊发布时间:2024-09-30

0. 论文信息

标题:GaussianCube: A Structured and Explicit Radiance Representation for 3D Generative Modeling

作者:Bowen Zhang, Yiji Cheng, Jiaolong Yang, Chunyu Wang, Feng Zhao, Yansong Tang, Dong Chen, Baining Guo

机构:University of Science and Technology of China、Tsinghua University、Microsoft Research Asia

原文链接:https://arxiv.org/abs/2403.19655

代码链接:https://github.com/GaussianCube/GaussianCube

官方主页:https://gaussiancube.github.io/

1. 摘要

我们引入了一种既结构化又完全显式的辐射表示,从而极大地方便了三维创成式建模。现有的辐射表示或者需要隐式特征解码器,这显著降低了表示的建模能力,或者在空间上是非结构化的,使得它们难以与主流3D扩散方法集成。我们首先使用一种新的致密化约束高斯拟合算法来推导高斯立方体,该算法使用固定数量的自由高斯来产生高精度拟合,然后通过最佳传输将这些高斯重新排列到预定义的体素网格中。由于高斯立方体是一种结构化的网格表示,它允许我们使用标准的3D U-Net作为扩散建模的主干,而无需精心设计。更重要的是,Gaussians的高精度拟合使我们能够实现高质量的表示,与以前的可比质量的结构化表示相比,具有数量级更少的参数,范围从一个到两个数量级。高斯立方体的紧凑性大大降低了三维创成式建模的难度。在无条件和类条件的对象生成、数字化身创建和文本到3D合成上进行的大量实验都表明,我们的模型在定性和定量上都实现了最先进的生成结果,强调了高斯立方体作为用于3D生成建模的高度精确和通用的辐射表示的潜力。

2. 引言

三维生成建模领域见证了显著的增长,这主要得益于生成建模技术的进步。该领域的大部分先前工作都利用了神经辐射场(NeRF)的各种变体作为其底层的三维表示,这些表示通常由一个显式的结构化代理表示和一个隐式特征解码器组成。然而,这类混合NeRF变体在表示能力上有所退化,尤其是在生成建模中,单个隐式特征解码器被所有对象共享时。此外,体渲染的高计算复杂度导致渲染速度缓慢且内存成本高昂。

最近,三维高斯溅射(GS)的出现提高了重建质量和实时渲染能力。三维GS的完全显式特性消除了对共享隐式解码器的需求,这是其在NeRFs之上的另一个关键优势。尽管三维GS在场景重建任务中得到了广泛研究,但其空间非结构化特性在应用于主流生成建模框架时带来了重大挑战。

为了克服这些障碍,我们引入了GaussianCube——一种既结构化又完全显式的辐射表示,具有强大的拟合能力(与先前工作的比较见表1)。所提出的方法首先确保使用预定数量的自由高斯分布进行高精度拟合,随后将这些高斯分布组织成一个结构化的体素网格。这种基于显式网格的结构允许无缝应用标准的3D卷积架构,如U-Net,从而消除了对非结构化或隐式解码表示通常需要的复杂、专门化网络设计的需求。

在不牺牲拟合质量的情况下结构化三维高斯分布并非易事。一个简单的起点是通过省略GS中的加密和修剪步骤来获得固定数量的高斯分布。然而,这种简化无法使高斯分布接近物体表面,并导致显著的质量下降。相比之下,我们提出了一种加密约束拟合策略,该策略保留了原始的修剪过程,但限制了执行加密的高斯分布的数量,确保总数不超过预定的最大值N3。对于后续的结构化,我们使用最优传输(OT)将高斯分布分配到N×N×N的体素网格中。因此,我们的拟合高斯分布在体素网格中有序排列,每个体素包含高斯分布的特征。所提出的基于OT的结构化方法实现了最大的空间对应性,以最小的总传输距离为特征,同时保留了三维GS的表达能力。

GaussianCube的结构化特性使我们能够进行高效的3D扩散建模,原因如下:1)它允许我们使用标准的3D U-Net作为扩散建模的骨干网络,而无需复杂的设计。2)GaussianCube的空间连贯性允许使用标准的三维卷积来捕获相邻高斯分布之间的相关性,从而促进高效的特征提取。3)GaussianCube能够以比先前类似质量的结构化表示少几个数量级的参数实现高质量拟合。由于最近的工作已经证明了扩散模型在处理高维分布时的困难,GaussianCube的紧凑性显著降低了生成框架的建模难度。

我们进行了全面的实验来验证我们方法的有效性。在ShapeNet和OmniObject3D数据集上评估了模型的无条件和类别条件生成能力。定量和定性比较均表明我们的模型超越了所有先前方法。我们还在一个人工合成的头像数据集上进行了数字头像生成。我们的模型能够根据单幅肖像图像生成高保真度的三维头像,在身份保持和细节创建方面均优于现有技术。此外,我们还在Objaverse上评估了模型对于具有挑战性的文本到三维创作任务的能力。我们的模型在定量和定性方面均表现出色,仅需5秒即可生成与给定文本提示一致的结果。所有实验都展示了GaussianCube的强大能力,并表明其作为一种强大且通用的三维表示,在各种应用中具有巨大潜力。图1展示了我们方法生成的一些样本。推荐课程:实时400FPS!高精NeRF/Gaussian SLAM定位与建图。

3. 效果展示

4. 方法

根据先前的工作,我们的框架如图2所示,主要包括两个阶段:表示构建和扩散建模。在表示构建阶段,我们首先对每个对象应用受密度约束的3DGS拟合算法,以获得固定数量的高斯模型。然后,通过高斯模型位置和预定义体素网格中心之间的最优传输,将这些高斯模型组织成所提出的空间结构高斯立方体(GaussianCube)。对于扩散建模,我们训练了一个3D扩散模型来学习高斯立方体的分布。接下来,我们将详细介绍每个阶段的设计。

我们的方法首先旨在在拟合过程中保持不同对象间高斯模型的数量g ∈ RNmax×C恒定。一种简单的方法可能是省略原始GS中的密度增加和剪枝步骤。然而,我们认为这种简化会显著降低拟合质量,表6中的实证结果也证明了这一点。

相反,我们建议在保留剪枝过程的同时,在密度增加阶段施加新的约束,如图3(a)所示。拟合过程包括几个不同阶段:1)密度增加检测:假设当前迭代包含Nc个高斯模型,我们通过选择那些视图空间位置梯度幅值超过预定阈值τ的高斯模型作为密度增加候选。我们将候选数量记为Nd。2)候选采样:为防止超过预定的最大Nmax高斯模型数,我们从候选模型中选择具有最大视图空间位置梯度的min(Nmax−Nc,Nd)个高斯模型进行密度增加。3)密度增加:我们通过交替进行克隆和分割操作来修改密度增加方法,将其分为独立的步骤。4)剪枝检测和剪枝:我们识别并移除α值小于小阈值ϵ的高斯模型。完成拟合过程后,我们用α=0的高斯模型进行填充,以达到目标数量Nmax,同时不影响渲染结果。得益于我们提出的策略,我们获得了与现有类似质量工作相比参数数量少几个数量级的高质量表示,这大大降低了扩散模型的建模难度。

5. 实验结果

6. 总结 & 未来工作

我们提出了GaussianCube,这是一种为3D生成模型量身定制的、结构化和显式的辐射度表示方法。首先,我们使用提出的密度约束拟合算法,用固定数量的高斯函数拟合每个3D对象。然后,通过求解高斯函数位置与预定义体素网格之间的最优传输问题,进一步将所得高斯函数组织成空间结构化表示。提出的GaussianCube具有空间结构,允许使用标准的3D U-Net进行扩散建模,而无需复杂的设计。此外,与相似质量的先前工作相比,GaussianCube能够以更少的参数实现高质量的拟合,从而进一步降低了生成建模的难度。我们配备GaussianCube的3D扩散模型在评估数据集上实现了最先进的生成质量,突显了GaussianCube作为3D生成中通用且强大的辐射度表示的潜力。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊可提供顶会论文的课题如下:

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿:具身智能、大模型、Mamba、扩散模型等

除了这些,还有求职硬件选型视觉产品落地、产品、行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1