当前位置:首页|资讯

NeurlPS'24开源!LightGaussian:15倍压缩打造更紧凑的高斯场!

作者:3D视觉工坊发布时间:2024-10-19

0. 论文信息

标题:LightGaussian: Unbounded 3D Gaussian Compression with 15x Reduction and 200+ FPS

作者:Zhiwen Fan, Kevin Wang, Kairun Wen, Zehao Zhu, Dejia Xu, Zhangyang Wang

机构:University of Texas at Austin、Xiamen University

原文链接:https://arxiv.org/abs/2311.17245

代码链接:https://github.com/VITA-Group/LightGaussian

官方主页:https://lightgaussian.github.io/

1. 摘要

使用基于点的技术的实时神经渲染的最新进展为3D表示的广泛采用铺平了道路。然而,像3D高斯splatting这样的基础方法带来了大量的存储开销,这是由于将SfM点增长到数百万个,通常需要千兆字节级的磁盘空间来用于单个无限场景,从而带来了巨大的可扩展性挑战并阻碍了Splatting效率。为了应对这一挑战,我们引入了LightGaussian,这是一种新的方法,旨在将3D Gaussians转换为更高效、更紧凑的格式。受网络修剪概念的启发,LightGaussian识别对场景重建无足轻重的高斯,并采用修剪和恢复过程,有效地减少高斯计数中的冗余,同时保留视觉效果。此外,LightGaussian采用蒸馏和伪视图增强来提取较低程度的球面谐波,允许知识转移到更紧凑的表示中,同时保持反射率。此外,我们提出了一种混合方案,矢量树量化,以量化所有的属性,导致较低的位宽表示与最小的精度损失。总之,LightGaussian实现了超过15倍的平均压缩率,同时将FPS从139提高到215,从而能够在Mip-NeRF 360、Tank和Temple数据集上高效地表示复杂场景。

2. 引言

新视角合成(NVS)旨在根据一组校准的多视图图像,生成三维场景从未见过的视角的逼真图像。NVS具有重要意义,因为它可用于广泛的现实应用场景,包括虚拟现实、增强现实、数字孪生和自动驾驶。神经辐射场(NeRFs)已展现出从多视图图像进行逼真三维建模和合成的强大能力,其中将三维位置和视角方向映射为视角相关的颜色和体积密度。像素强度可以使用体积渲染技术进行渲染。然而,NeRF及其变体在现实世界场景中的实际部署中面临渲染速度的挑战。

沿着这一趋势的后续研究引入了基于体素的隐式表示、哈希网格、计算并行性或神经光场表示来加速渲染。然而,这些方法要么需要特定设计,要么需要在渲染质量和效率之间进行权衡,因此难以推广到具有实际速度要求的大规模场景。基于点的三维高斯溅射(3D-GS)的最新进展已将逼真渲染质量提升到了实时水平,即使对于复杂场景也是如此。作者利用将场景表示为具有特定属性的显式三维高斯分布的思想来建模场景;使用名为溅射的技术高效地渲染二维图像。速度与质量之间的最佳平衡表明,使用3D-GS作为在数字孪生和自动驾驶中生成众多大规模场景的新表示形式是一个潜在趋势。然而,使用基于点的表示形式不可避免地会引入巨大的存储成本,因为每个点及其属性都是独立存储的。例如,在典型的无界360度场景上,3D-GS需要超过1GB的存储空间,这抑制了3D-GS的可扩展性(例如,在“Bicycle”场景上需要1.4GB)。在本文中,我们解决了存储负担重的问题,并提供了一种紧凑的表示形式,同时保持了渲染质量。通过检查训练良好的基于点的表示形式,我们发现每个场景都由数百万个高斯分布组成,这些高斯分布是从稀疏的结构从运动(SfM)点云中生长出来的。将属性附加到高斯分布上,以建模场景的几何形状和外观。然而,优化后的大量高斯分布以及用于建模场景反射的高阶球谐(SH)系数,在拟合场景时会导致过参数化的表示形式。为了最小化所需的高斯分布数量,我们提出了适当的标准来衡量每个三维高斯分布的全局重要性,即其在视图合成中的贡献。识别出对视觉质量影响最小的高斯分布并进行剔除。随后是简化的恢复步骤,允许快速优化,我们称之为高斯剔除与恢复。

球谐(SH)系数占数据的重要部分,用于建模视角相关的颜色并捕捉光从不同角度与表面的相互作用。然而,使用高阶SH系数需要在准确性和计算效率之间进行权衡。虽然高阶系数提供更详细的照明信息,增强了场景的逼真度,但它们也增加了计算复杂性和存储需求。为了缓解这一问题,我们提出了SH蒸馏步骤,并辅以伪视图增强。此方法旨在将高阶系数中的信息高效地压缩成更紧凑的形式,确保在保持质量的同时不增加计算需求。除了关注减少空间(高斯分布数量)和光照(SH)表示中的冗余外,我们还引入了矢量量化步骤。此过程根据全局重要性自适应地选择一定数量的不同点属性,这进一步减少了原始格式所需的位宽。

3. 效果展示

压缩性与渲染速度。我们提出LightGaussian方法,将三维高斯分布转换为更紧凑的表示形式。LightGaussian能够有效剔除冗余的高斯分布,同时保持视觉保真度(左图所示)。它将平均存储量从724MB减少到42MB,并将每秒帧数(FPS)从119提高到209。

4. 主要贡献

综上所述,我们提出的框架LightGaussian有效地减少了高斯分布数量(例如,从149万减少到57.5万,见图1左图),显著降低了存储需求(从724MB减少到42MB),同时在Mip-NeRF 360数据集上的渲染质量下降极小(SSIM下降0.005)。LightGaussian在包含详细背景的复杂场景上进一步将渲染速度提高到更高水平(200+ FPS),为拓宽应用范围提供了可行的解决方案。

5. 方法

LightGaussian的总体流程。三维高斯分布是从多视图图像和结构从运动(SfM)点中优化得到的。LightGaussian首先根据训练数据计算每个高斯分布的全局重要性,并剔除重要性最低的高斯分布。随后引入一种使用合成伪视图进行蒸馏的方法,将球谐函数(SH)转换为紧凑格式。为进一步减少模型带宽,还引入了包括码本初始化和分配在内的矢量量化方法。

高斯致密化方法通过克隆和分割初始的结构化从运动恢复(SfM)点云,以解决覆盖范围不足的问题,并用于建模小尺度几何形状以及详细的场景外观。尽管这一策略显著提升了重建质量,但经过优化后,高斯体的数量会从数千增长到数百万。这种包含大量高斯体的显式点基表示法需要极大的存储开销。我们从代表性神经网络剪枝技术的成功中汲取灵感,该技术可在不损害网络整体性能的前提下消除影响较小的神经元。我们为此量身定制了一种适用于3D高斯溅射表示的通用剪枝范式,以减少过度参数化的点数,同时保持原始精度。因此,识别最具代表性的、且精度可恢复的多余高斯体,是我们方法中的关键步骤。推荐课程:实时400FPS!高精NeRF/Gaussian SLAM定位与建图。

然而,基于简单标准(例如点的不透明度)对高斯体进行剪枝,可能会导致建模性能大幅下降,尤其是在可能会消除复杂场景结构的情况下,如图3所示。

6. 实验结果

7. 总结 & 未来工作

我们提出了一种名为LightGaussian的新框架,该框架将沉重的点基表示法转换为紧凑格式,以实现高效的新视角合成。在实际应用中,LightGaussian探索了使用3D高斯体来建模大规模场景,并找到了一种有效的方法来识别由致密化产生的不太重要的高斯体。在追求紧凑的球谐函数格式时,通过合成伪视图来生成更多数据,以增强知识蒸馏。3D高斯向量量化后处理则通过使用高斯显著性作为指标,进一步消除了冗余。通过这些方法,所提出的表示法将数据冗余降低了15倍以上,进一步将帧率(FPS)提升至200 FPS以上,同时渲染质量损失极小。探索在不同基于3D高斯溅射(3D-GS)的框架中实现零样本压缩的可能性,是未来研究的一个有价值的方向。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊可提供顶会论文的课题如下:

如何发表一篇顶会!涉及3DGS、位姿估计、SLAM、三维点云、图像增强、3D目标检测等方向



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1