来源:3DCV
添加小助理:CV3d008,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门独家秘制视频课程、近百场顶会论文一作讲解、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎加入!
0. 这篇文章干了啥?
理解和交互三维环境是计算机视觉领域一个艰巨但至关重要的挑战。这一努力的核心任务是准确感知和分割三维结构,随着我们深入探索更复杂的三维场景表示,这一任务变得越来越复杂。最近,三维高斯溅射(3D-GS)作为一种前沿方法应运而生,有望彻底改变我们渲染和重建三维空间的方式。该方法通过采用大量彩色三维高斯分布,实现了对三维场景的高保真表示,提供了一种精确度和视觉质量兼具的出色组合,尤其适合复杂对象和场景的渲染。
尽管3D-GS具有巨大潜力,但仍存在一个重大障碍:仅从二维掩模中分割这些三维高斯分布——这一过程对于从对象识别到场景操作等一系列应用至关重要。目前解决这一挑战的方法在很大程度上依赖于迭代梯度下降法来标记三维高斯分布。然而,这些方法存在收敛速度慢和频繁陷入次优解的问题,使得它们对于需要实时性能或高精度的应用来说不切实际。
为了弥补这一空白,我们的工作引入了一种简单但全局最优的求解器,专为三维高斯溅射的分割而设计。我们的方法利用了一个深刻见解,即从重建的三维高斯溅射中渲染分割后的二维图像的过程可以简化为一个关于每个高斯分布累积贡献的线性函数。这一认识使我们能够将问题框架化为线性整数规划问题,该问题可以闭式求解,仅依赖于溅射过程中固有的alpha合成项。这一突破极大地简化了分割任务,绕过了迭代优化的需要,并直接导致了最优标签分配。
此外,通过将背景偏差集成到我们的目标函数中,我们进一步提高了该方法在三维分割中对二维掩模噪声的鲁棒性。这一改进不仅增强了我们的解决方案的鲁棒性,还扩大了其在更广泛场景和条件下的适用性。令人印象深刻的是,我们的求解器在大约30秒内完成优化——比现有方法快50倍——同时保证了给定二维掩模的全局最优性。
通过广泛的实验,我们验证了我们的方法在有效分割各种场景方面的优越性,展示了其在对象移除和修复等下游任务中的增强性能。这些结果凸显了我们的方法在显著推动三维场景处理和理解领域方面的潜力。
下面一起来阅读一下这项工作~
1. 论文信息
ECCV'24开源 | FlashSplat:2D到3D高斯泼溅分割的优化求解器
2. 摘要
这项研究解决了从2D掩模中精确分割三维高斯分布的挑战。传统方法通常依赖迭代梯度下降来给每个高斯分配唯一的标签,导致冗长的优化和次优解。相反,我们提出了一个简单而全局最优的3D-GS分割求解器。我们的方法的核心观点是,对于重建的3D-GS场景,2D掩模的渲染本质上是关于每个高斯的标签的线性函数。因此,最优标签分配可以通过封闭形式的线性规划来解决。该解决方案利用了splatting流程的alpha混合特性来实现单步优化。通过在我们的目标函数中加入背景偏差,我们的方法在3D分割中表现出优越的抗噪声鲁棒性。值得注意的是,我们的优化在30秒内完成,大约50秒比现有最好的方法更快。大量的实验表明,我们的方法在分割各种场景的效率和鲁棒性,以及在下游任务,如对象删除和修复的优越性能。
3. 效果展示
4. 主要贡献
我们的工作主要贡献总结如下:
我们为三维高斯溅射分割引入了一种全局最优求解器,显著提高了将二维分割结果提升到三维空间的效率。
我们通过线性化简化了三维高斯溅射渲染过程,将二维到三维分割任务转化为线性整数优化问题。该方法对二值分割和场景分割均有效。
我们在优化中引入了背景偏差,展示了在三维分割中对噪声的优越鲁棒性,展示了我们的方法在各种场景分割中的鲁棒性和效率。
我们的方法实现了惊人的优化速度,在30秒内完成过程——比现有方法快约50倍——同时确保给定二维掩模的全局最优性。推荐课程:实时400FPS!高精NeRF/Gaussian SLAM定位与建图。
广泛的实验验证了我们的方法在下游任务(包括对象移除和修复)中的优越性,从而凸显了其对三维数据处理和应用的显著影响潜力。
5. 基本原理是啥?
我们首先深入探讨了3D高斯溅射(3DGS)的渲染过程,重点研究了基于瓦片的光栅化和Alpha混合。然后,我们描述了这一过程如何有助于将3DGS的分割问题表述为整数线性规划(ILP)优化问题,并证明该问题可以闭式求解。鉴于二维掩模通常具有噪声特性,我们引入了软化的最优分配来减轻这些噪声。除了二元分割外,我们还扩展了该方法以包括场景分割,从而能够对3D场景中的所有对象进行分割。最后,我们提出了一种基于深度信息渲染二维掩模的方法,该方法可以从新的视角将3D分割结果投影到二维掩模上。
6. 实验结果
7. 总结 & 未来工作
在本文中,我们提出了一种从二维掩模进行3D高斯溅射分割的最优求解器,显著提高了将二维分割提升到三维空间的准确性和效率。通过将3D-GS中的Alpha合成分解为每个高斯函数的总体贡献,该求解器仅需要单步优化即可获得最优分配。与以前的方法相比,它不仅将优化过程加快了约50倍,而且还通过简单的背景偏差增强了抗噪声能力。此外,该方法还扩展到场景分割,并能够在新的视角下渲染掩模。大量实验表明,该方法在场景分割任务中表现出色,包括对象移除和图像修复。我们希望这项工作将有助于未来的3D场景理解和操作。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
3D视觉工坊提供35个顶会论文的课题如下:
1、基于环境信息的定位,重建与场景理解
2、轻是级高保真Gaussian Splatting
3、基于大模型与GS的 6D pose estimation
4、在挑战性遮挡环境下的GS-SLAM系统研究
5、基于零知识先验的实时语义地图构建SLAM系统
6、基于3DGS的实时语义地图构建
7、基于文字特征的城市环境SLAM
8、面向挑战性环境的SLAM系统研究
9、特殊激光传感器融合视觉的稠密SLAM系统
10、基于鲁棒描述子与特征匹配的特征点法SLAM
11、基于yolo-world的语义SL系统
12、基于自监督分割的挑战性环境高斯SLAM系统
13、面向动态场景的视觉SLAM系统研究
14、面向动态场景的GS-SLAM系统研究
15、集成物体级地图的GS-SLAM系统
16、挑战场景下2D-2D,2D-3D或3D-3D配准问题
17、未知物体同时重建与位姿估计问题类别级或开放词汇位姿估计问题
18、位姿估计中的域差距问题
19、可形变对象(软体)的实时三维重建与非刚性配准
20、机器人操作可形变对象建模与仿真
21、基于图像或点云3D目标检测、语义分割、轨迹预测.
22、医疗图像分割任务的模型结构设计
23、多帧融合的单目深度估计系统研究
24、复杂天气条件下的单目深度估计系统研究高精度的单目深度估计系统研究
25、基于大模型的单目深度估计系统研究
26、高精度的光流估计系统多传感器融合的单目深度估计系统研究
27、基于扩散模型的跨域鲁棒自动驾驶场景理解
28、水下图像复原/增强
30、Real-World图像去雾(无监督/物理驱动)
31、LDR图像/视频转HDR图像/视频
32、光场图像增强/复原/超分辨率
33、压缩后图像/视频的增强/复原
34、图像色彩增强(image retouching)
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:
工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:四旋翼建模、无人机飞控等
2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿:具身智能、大模型、Mamba、扩散模型等
除了这些,还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群
添加小助理: CV3d008,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。
3D视觉工坊官网:www.3dcver.com
课程涉及:具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap等。除此之外官网还包括高精度结构光相机,手持扫描仪,高精度标定板,无人机等硬件和一对一论文辅导。