当前位置:首页|资讯

北大总结3D表征优缺点:体素、点云、网格、SDF、NeRF、GS

作者:3D视觉工坊发布时间:2024-10-14

0. 论文信息

标题:3D Representation Methods: A Survey

作者:Zhengren Wang

机构:Peking University

原文链接:https://arxiv.org/abs/2410.06475

1. 摘要

在诸如计算机图形、虚拟现实和自治系统等各种应用中对高保真3D模型的需求日益增长的驱动下,3D表示领域已经经历了显著的进步。这篇综述考察了三维表示方法的发展和现状,突出了它们的研究轨迹、创新和优缺点。综述了体素网格、点云、网格、符号距离函数(SDF)、神经辐射场(NeRF)、三维高斯分布、三平面和深度推进四面体(DMTet)等关键技术。该综述还介绍了在推进该领域中起关键作用的基本数据集,突出了它们的特征和对研究进展的影响。最后,我们探讨了潜在的研究方向,为进一步扩大三维表现方法的能力和应用前景。

2. 引言

三维表示领域经历了显著增长,这一增长受到深度学习进步及其在不同领域关键应用的推动。三维表示构成了许多技术进步的基石。

在计算机图形学中,它使得创建逼真的模型和环境成为可能,从而提升了娱乐和模拟中的视觉保真度和沉浸感。虚拟现实严重依赖于精确的三维表示来创造可用于游戏、培训和教育等领域的逼真体验。在自主导航方面,环境的三维模型对于精确地图绘制和障碍物检测至关重要,确保了自动驾驶车辆的安全和高效移动。医学成像利用三维表示提供解剖结构的详细视图,辅助诊断和手术规划。推荐课程:聊一聊经典三维点云方法,包括:点云拼接、聚类、表面重建、QT+VTK等。

鉴于三维表示技术的广泛影响,了解该领域的底层方法和进展至关重要。本综述旨在探讨三维表示方法的发展历程和现状,总结关键技术,介绍重要数据集,并指出未来研究的有前景的方向。

研究焦点和发展历程

三维表示方法的演变以从基本几何构造到复杂数据驱动模型的进步为标志。早期方法侧重于几何基元和空间数据结构。随着时间的推移,随着计算能力和机器学习的进步,更复杂和灵活的表示方法应运而生。

• 早期方法和几何模型:三维表示的早期工作严重依赖于显式几何描述,如多边形网格和构造实体几何(CSG)。这些方法在计算机辅助设计(CAD)和早期计算机图形学中发挥了基础性作用。

• 基于体积的表示:体素网格的引入为三维空间提供了一种离散表示,适用于医学成像和体积数据处理。然而,体素网格存在内存使用高和分辨率限制的问题。

• 点云:点云将物体表示为空间中离散点的集合,随着激光雷达和深度传感器的出现而变得流行。虽然点云在捕获原始空间数据方面效率很高,但缺乏连接信息,对下游处理构成挑战。

• 基于网格的方法:由顶点、边和面组成的多边形网格提供了一种紧凑且多功能的表示。它们在计算机图形学和动画中得到了广泛应用。基于网格的方法已经发展到支持动态和可变形模型。

• 隐式表示:如符号距离函数(SDF)等技术提供了一种连续且隐式的方式来描述表面。SDF在碰撞检测和形状分析中特别有用。

• 神经表示:最近的进展见证了基于神经网络表示方法的兴起,如神经辐射场(NeRF),它们使用神经网络对三维场景进行编码。这些方法彻底改变了三维重建和新视图合成。

• 混合方法:结合多种表示方法,如DMTet、Tri-plane和3D高斯溅射,可以利用每种方法的优势更有效地处理复杂场景。

3. 3D表征

本节概述了至关重要的三维表示技术,包括但不限于以下方法:

3.1 体素网格

体素网格表示是一种对三维物体进行建模的方法,其中空间被划分为规则的立方体网格,这些立方体被称为体素(体积元素)。网格中的每个体素都可以存储诸如颜色、密度或材料属性等信息,从而实现对物体的详细体积表示。该技术尤其适用于表示复杂的几何形状和内部结构,这些结构可能很难通过基于表面的方法(如网格)来捕捉。体素网格的一个基础优势是其实施简单且易于理解,因为它们将二维像素的概念扩展到三维。这使得体素网格在自然产生体积数据的应用中特别有用,例如医学成像(如MRI和CT扫描),其中器官和组织被表示为体素的三维数组。在计算机图形学和游戏开发中,体素网格至关重要,它们在《我的世界》等游戏中的可破坏环境和程序生成中得到了应用。这些应用利用体素网格的简单性和灵活性来动态创建和操纵三维环境。

一项显著的工作是Maturana和Scherer开发的VoxNet,这是一个直接在体素网格上执行对象识别任务的三维卷积神经网络(CNN)。该方法证明了将体素表示与深度学习技术相结合,在三维形状分类和识别任务中实现最先进性能的潜力。在利用体素网格进行深度学习的基础上,Schwarz等人关于VoxGRAF的工作提出了一种使用稀疏体素网格进行三维感知图像合成的新方法。他们的研究通过有效地将稀疏体素网格与渐进增长、自由空间修剪和适当的正则化等复杂技术相结合,证明了用三维卷积替代整体多层感知器(MLP)的可行性。这种方法不仅确保了从任意视角的高效渲染,还保证了合成图像中的三维一致性和高视觉保真度,标志着图像合成和渲染领域的一大飞跃。

进一步丰富了体素网格的应用,Sella等人的Vox-E探索了由文本描述指导的三维物体体素编辑领域。这项创新工作引入了一种直接在三维空间中操作的体积正则化损失,利用体素表示的显式特性来强制原始物体和编辑后物体的全局结构之间的相关性。这一进展为三维建模和编辑领域开辟了新的视野,其中可以通过自然语言输入直观地指导详细且深入的修改,从而提高了三维物体操作的可用性和灵活性。与上述进展相辅相成的是,Tatarchenko等人提出了一种深度卷积解码器架构,该架构通过使用八叉树表示,以计算和内存高效的方式生成体积三维输出,从而能够在有限的内存预算下表示更高分辨率的输出。

3.2 点云

点云表示是建模和理解三维(3D)结构的一种基本方法。点云本质上是空间中的数据点集合,代表物体或场景的外表面。这些点通常由其在三维空间(x, y, z)中的坐标定义,有时还包括颜色、强度和法向量等附加信息。点云由激光雷达(LiDAR)、摄影测量和深度相机等三维扫描技术生成,这些技术能够高精度地捕获物体和环境的形状。点云的关键优势之一是它们的简单性和对三维世界的直接表示。与其他三维表示方法(如网格或体素网格)不同,点云不需要连接信息或体积数据,因此更容易生成和操作。然而,这种简单性也带来了挑战。点云通常稀疏、无结构且可能包含噪声,这使得分割、识别和重建等处理任务更加复杂。

该领域的一项里程碑工作是Qi等人提出的PointNet。PointNet提出了一种新颖的神经网络架构,该架构可以直接处理点云,无需将其转换为体素网格或网格等结构化形式。这项工作表明,深度学习模型可以通过尊重点集的置换不变性,并使用一系列共享的多层感知器(MLPs)和最大池化来聚合全局特征,从而在三维识别任务上实现卓越的性能。PointNet++通过引入层次学习扩展了原始的PointNet,使网络能够捕获多个尺度的局部结构。这种方法显著提高了处理不同点密度和捕获精细几何细节的能力。另一项有影响力的工作是Wang等人提出的动态图卷积神经网络(DGCNN)。该方法在网络的每一层中动态构建图,连接相邻点以更有效地捕获局部几何关系。DGCNN已被证明在分类、分割和部分分割等各种任务上表现异常出色,这得益于其基于图的表示的灵活性。除了这些方法外,最近的研究还探索了基于Transformer的点云架构。Zhao等人提出的Point Transformer是一个典型例子,它使Transformer架构适应于点云中局部和全局依赖性的捕获。这种方法通过有效建模点之间的复杂交互,在分类和分割等任务中展示了最先进的性能。值得注意的是,Nichol等人提出的Point-E是最新的基于三维扩散的点云生成模型,它首先使用文本到图像的扩散模型生成单个合成视图,然后使用第二个以生成图像为条件的扩散模型生成三维点云,从而实现从复杂提示生成三维点云。

3.3 网格

网格表示是三维计算机图形学和计算几何学中用于表示三维物体表面的基本方法。它由顶点、边和面组成,形成多面体形状。顶点是三维空间中的点云,边连接顶点对,面(通常是三角形或四边形)由连接三个或更多顶点的边定义。网格之所以受欢迎,是因为它们在简单性和表达能力之间提供了良好的平衡。通过调整顶点和面的数量,它们可以以任意精度近似复杂的几何形状。此外,网格受到图形硬件的良好支持,使其在处理渲染和模拟任务时高效。网格表示的灵活性允许有效计算表面属性,如法线和曲率,这对于真实感渲染和物理模拟至关重要。Kato等人提出的Neural 3D Mesh Renderer引入了一种可微渲染器,允许对涉及网格表示的神经网络进行端到端训练。这种可微性使得能够通过基于图像的损失函数直接优化三维网格参数,从而在神经网络中架起二维图像处理与三维几何操作之间的桥梁。Wang等人提出的Pixel2Mesh提出了一种从单张RGB图像重建三维网格的端到端网络。该方法将基于图的卷积网络与网格变形框架相结合,使初始椭球体能够逐步细化成详细的三维网格。这种方法证明了深度学习能够从二维输入生成准确且详细的三维形状。Groueix等人提出的AtlasNet引入了一个使用深度神经网络生成三维网格的框架。AtlasNet将三维表面表示为一系列参数化表面块的集合,这些表面块通过学习并组装成最终网格。这种方法在捕获复杂几何形状方面提供了灵活性,并促进了高效的学习和推理。Gkioxari等人提出的Mesh R-CNN将Mask R-CNN框架扩展到处理三维网格预测。它结合基于图像的特征提取和图卷积网络来预测图像中物体的三维形状,在三维形状重建任务中取得了最先进的成果。将图像分割和三维重建集成在一个框架中,体现了利用网格表示进行复杂场景理解的进展。

3.4 符号距离函数(SDF)

符号距离函数(SDF)表示广泛用于表示三维物体的水密形状和表面。SDF通过定义空间中任意点到物体最近表面的距离来编码物体的几何形状,符号表示点是在物体内部(负号)还是外部(正号)。这种表示允许对表面进行平滑和连续的描述。该领域的一项基础工作是使用SDF进行隐式表面建模,其中表面由SDF的零水平集定义。这种方法能够无缝处理拓扑变化,如表面的合并和分裂,这在涉及流体动力学和可变形物体的模拟中特别有利。

推动SDF在三维重建中使用的开创性工作是Park等人提出的DeepSDF。这项工作引入了直接从原始数据学习连续SDF的能力,从而能够从不完整和带噪声的观测中实现高保真形状表示和重建。作者证明,DeepSDF能够捕获精细细节和复杂拓扑结构,在准确性和效率方面优于传统的基于网格和基于体素的方法。对于关节形状表示,Mu等人引入了关节SDF(A-SDFs)来建模具有形状和关节分离潜在空间的关节形状。他们的方法通过在测试时通过测试时适应来调整模型,从而增强了SDF的表示能力。这项工作强调了基于SDF的方法在捕获关节和可变形物体细微差别方面的多功能性和适应性,将SDF的实用性从静态形状扩展到动态模型。Mittal等人提出了AutoSDF,它依赖于自回归形状先验进行有效的三维形状补全、重建和生成。这项工作通过展示处理多模态三维任务的能力,同时优于针对单一任务优化的最先进方法而脱颖而出。这种方法不仅巩固了SDF在捕获复杂几何形状方面的实用性,还展示了深度学习在从大型数据集中提取和利用形状先验方面的强大能力。与AutoSDF相比,Zheng等人提出的SDF-StyleGAN扩展了StyleGAN2在三维形状生成方面的能力,使用隐式SDF作为形状表示。这种新颖的融合通过为真实和虚假SDF值和梯度引入专用鉴别器,解决了高质量三维形状几何生成方面的挑战,从而显著提升了生成形状的视觉质量和几何准确性。LAS-Diffusion重点介绍了一个基于扩散的框架,该框架结合了新颖的视角感知局部注意力机制,强调了三维形状在局部可控性和泛化性方面的改进。该方法有效地利用二维草图图像作为输入,为图像条件的三维形状生成开辟了新途径,能够满足详细规格和艺术愿景。值得注意的是,来自OpenAI的Jun等人提出的Shap-E直接生成隐式函数(SDF和NeRF)的参数。这种方法提供了更快的收敛速度,并在处理更高维度、多表示输出空间时实现了可比或更优的样本质量。

3.5 神经辐射场(NeRF)

神经辐射场(NeRF)已成为三维表示和视图合成领域的一种变革性方法。该方法将体积场景表示编码在神经网络中,该网络能够从稀疏的输入图像集合中合成复杂场景的新视图。Mildenhall等人提出的NeRF利用全连接深度神经网络,根据空间坐标和观察方向预测空间中某点的颜色和密度。这使得模型能够通过沿穿过场景的射线整合这些预测来渲染逼真的新视角图像。NeRF渲染图像的卓越质量使其成为三维计算机视觉和图形学中的一项基础技术。

NeRF方法已在几项重要工作中得到扩展和完善。例如,Schwarz等人提出的GRAF探索了如何将生成模型与辐射场相结合以合成三维一致的图像。GRAF利用生成对抗网络(GANs)的强大功能生成从不同视角看都连贯的高质量图像,从而推动了三维表示和图像合成之间的交叉领域的发展。Zhang等人提出的NeRF++研究了NeRF的局限性,特别是在处理无界场景时,并提出了改进此类环境表示的扩展方法。NeRF++增强了模型渲染具有复杂几何形状和不同深度的场景的能力,拓宽了NeRF技术的应用范围。对于相机参数未知的场景,Wang等人提出的NeRF–提出了一种同时优化场景表示和相机参数的方法。这一创新使得NeRF能够在更灵活、控制更少的环境中使用,提高了其在现实世界应用中的实用性。Martin-Brualla等人提出的NeRF-W也将NeRF的适用性扩展到不受约束和多样化的照片集合。这项工作解决了现实世界图像数据集带来的挑战,这些数据集通常包含光照、天气和遮挡的变化。通过引入处理这些变化的策略,NeRF-W证明了NeRF模型在从不那么受控的图像数据中合成高质量视图方面的鲁棒性。Barron等人提出的Mip-NeRF通过引入多尺度表示解决了NeRF中的混叠伪影问题。这种方法使得渲染更加稳健和准确,尤其是在不同细节和尺度水平上,从而提高了合成图像的视觉质量。M¨uller等人提出的InstantNGP专注于优化NeRF训练和推理的效率。通过利用基于哈希表的编码和高效的GPU计算相结合,InstantNGP显著减少了训练NeRF模型所需的时间,使得该技术更适用于实时应用。Barron等人提出的Mip-NeRF 360引入了一种多尺度表示,有效处理了抗混叠和无限场景的复杂性,提供了更准确且视觉效果更佳的渲染。Fridovich等人提出的Plenoxels与典型的基于神经网络的NeRF方法有很大不同。Plenoxels利用稀疏体素网格直接编码辐射场,完全绕过了神经网络的需求。该方法利用了体素网格的简单性和高效性,同时仍能实现高质量的视图合成。同样,Barron提出的Zip-NeRF[3]通过采用允许高效采样和表示辐射场的基于网格的结构,专注于减少与NeRF相关的计算开销。这种方法不仅加快了渲染过程,还减轻了混叠伪影,从而产生更清晰、更精确的图像输出。

3.6 三维高斯溅射(3D Gaussian Splatting, 3DGS)

三维高斯溅射(3DGS)是一种使用高斯分布对三维场景进行建模和渲染的创新表示技术。3DGS的核心思想是将场景表示为三维高斯集合,这些高斯分布可以有效地近似场景的几何形状和外观。在该表示中,每个高斯分布都封装了空间和颜色信息,允许对表面和纹理进行平滑和连续的近似。与传统的基于NeRF的模型相比,该表示具有多个优势。首先,它允许实时渲染,这对于虚拟现实(VR)和增强现实(AR)应用至关重要。实时功能是通过利用高斯的连续性实现的,高斯的连续性可以通过基于点的技术和通过高级加速结构进行优化来高效渲染。

Kerbl等人的开创性工作引入了使用三维高斯溅射来表示辐射场的概念,从而实现了复杂场景的实时渲染。该方法展示了高斯溅射如何高效渲染并集成到实时应用中,与传统NeRF和体积渲染相比,在性能上有了显著提升。Zhang等人提出的DreamGaussian和Yi等人提出的Gaussiandreamer通过结合生成模型来创建三维内容,扩展了3DGS的使用。DreamGaussian和Gaussiandreamer利用高斯溅射的效率,能够以较低的计算开销创建高质量的三维内容。生成方法允许合成新的场景和对象,为游戏和电影中的内容创作者提供了强大的工具。Fanello等人提出的Mip-Splatting解决了3DGS中的混叠问题。当表示的分辨率不足以捕捉场景的细节时,会发生混叠,导致视觉伪影。Mip-Splatting引入了一种层次表示,通过使用多个细节级别来缓解混叠。这种方法确保了渲染在不同尺度上保持平滑和详细。动态场景带来了额外的挑战,Du等人提出了一种使用可变形三维高斯重建动态场景的方法。该方法允许对移动物体和场景变化进行精确建模,从单目视频输入提供高保真重建。同样,Gao等人探索了使用动态三维高斯来跟踪场景中的对象。该技术侧重于持久动态视图合成,能够随时间连续且一致地跟踪对象。

3.7 混合方法

3.7.1 深度步进四面体(Deep Marching Tetrahedra, DMTet)

Shen等人提出的深度步进四面体(DMTet)是一种复杂的三维表示技术,基于步进四面体的概念,该方法用于等值面提取。与传统的步进立方体或步进四面体不同,后者在固定网格上操作,DMTet利用深度学习来增强表示的灵活性和准确性。DMTet的核心是使用神经网络预测三维空间的占据情况和外观。该网络通常以潜在代码或隐式函数作为输入,该输入编码了对象的形状和结构。空间被离散化为四面体,即小的四面体形体积元素。评估每个四面体的顶点以确定其占据值,指示它们是在对象表面内部还是外部。然后,使用这些占据值通过插值四面体顶点的值来提取表面,类似于传统步进方法的操作,但具有更自适应和学习的边界。

DMTet的一个显著优势是能够处理三维形状中的复杂拓扑和精细细节。学习到的表示允许自适应分辨率,其中网络可以为需要更高细节的区域分配更多四面体,而为更简单的区域分配更少四面体。这种自适应网格划分确保了计算资源的高效利用,同时保持了表示形状的高保真度。此外,DMTet与可微渲染技术无缝集成,允许基于图像损失函数对三维形状进行端到端优化。这种集成意味着网络可以直接从二维图像进行训练,通过从渲染图像反向传播误差来改进三维表示,从而获得高度详细和准确的三维模型。虽然DMTet侧重于三维表示的几何方面,但认识到外观在创建逼真和高质量三维内容中的作用也至关重要。例如,Chen等人提出的Fantasia3D被介绍为一种能够分离几何和外观的新方法,其中网格是从头开始使用DMTet优化的。Fantasia3D的主要贡献在于其能够促进几何和外观属性的单独操作,从而能够对最终的三维模型进行更详细和可控的操作。另一个例子是Lin等人提出的Magic3D,通过采用两阶段训练提高了定性结果,其中首先学习一个粗略的NeRF,然后将其转换为DMTet表示以进行进一步优化。

3.7.2 三平面(Tri-plane)

三平面大约将三维空间划分为三个正交平面(通常与X、Y和Z轴对齐),从而允许高效地编码和渲染三维信息。每个平面捕获空间结构的不同方面,并且它们共同提供了一个全面的表示。三平面表示利用了复杂三维结构通常可以分解为更简单的二维投影这一事实,然后可以将这些投影重新组合以形成完整的三维模型。这种分解通过将问题的维度从三维降低到二维来简化三维数据的处理和操作。在实践中,这意味着关于三维对象或场景的信息被编码在三个单独的二维网格或纹理中,每个网格对应于一个正交平面。这些网格可以存储各种属性,如颜色、深度或占据情况,然后可以使用标准的二维图像处理技术进行处理。

三平面表示的一个关键优势是其能够在计算效率和三维重建质量之间取得平衡。通过利用三维对象和场景的固有结构,该方法可以在无需复杂且资源密集的三维体积处理的情况下实现高细节水平和准确性。这使得它特别适合性能至关重要的实时应用,如虚拟现实(VR)和增强现实(AR)。

最近的研究已经在各种应用中利用了三平面表示的实用性。Huang等人引入了一种三视角视图(TPV)表示,添加了另外两个与鸟瞰图(BEV)垂直的平面,证明了仅使用相机输入就能在nuScenes上的激光雷达分割任务中与基于激光雷达的方法性能相匹敌。这一成就凸显了三平面表示在增强基于视觉的三维语义占据预测方面的多功能性和效率。在另一项重要贡献中,Ma等人提出的OTAvatar利用了一种通用的可控三平面渲染解决方案。值得注意的是,该方法能够从单个肖像参考中构建个性化虚拟形象。这一突破展示了三平面表示在创建详细且可定制的三维虚拟形象方面的潜力。Wang等人提出的PET-NeuS通过借鉴EG3D中的三平面表示来扩展NeuS框架的功能。通过将符号距离场表示为三平面和多层感知器(MLPs)的混合体而不是仅使用MLPs,PET-NeuS方法展示了处理和可视化神经表面的增强能力。此外,Zhu等人提出的TriHuman代表了一种新颖的人类定制、可变形且高效的三平面表示。它实现了实时性能、最先进的姿态可控几何合成以及逼真的渲染质量。

4. 总结 & 未来工作

本综述对各类三维表示方法的发展、方法论及应用进行了详细探讨。从传统的几何模型到前沿的神经表示方法,每种方法都各具优势,同时也面临着不同的挑战。通过介绍关键数据集并指明未来研究方向,本综述旨在为当前及未来的相关领域研究提供便利。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊可提供顶会论文的课题如下:





Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1