SLAM结合大模型！Go-SLAM：利用3DGS重建动态环境！精度暴涨35%！

作者：3D视觉工坊发布时间：2024-09-27

0. 论文信息

标题：Why Transformers Need Adam: A Hessian Perspective

作者：Yushun Zhang, Congliang Chen, Tian Ding, Ziniu Li, Ruoyu Sun, Zhi-Quan Luo

机构：The Chinese University of Hong Kong、Shenzhen Research Institute of Big Data

原文链接：https://arxiv.org/abs/2402.16788

代码链接：https://github.com/zyushun/hessian-spectrum

1. 引言

自主机器人在包括搜救、制造和军事行动在内的多个领域变得越来越重要。为了有效地导航并与环境进行交互，这些机器人需要能够准确地重建周围环境、分割感兴趣的对象，并实时规划路径。构建此类系统的主要挑战之一在于，在实现高保真场景重建的同时，还需整合场景内对象的语义理解。此外，使机器人能够以开放式词汇的方式查询对象并生成与这些对象交互的最优路径，可增强其在挑战性环境中的灵活性和适应性。

传统的SLAM（即时定位与地图构建）技术在环境重建方面已证明有效，但往往无法提供详细的、对象级别的分割和交互能力。相比之下，尽管基于点云或体素的重建方法在空间准确性方面表现出色，但在以稳健且可扩展的方式融入对象语义方面却面临挑战。近期，3D高斯溅射（Splatting）技术的进展通过使用3D高斯基元来建模场景的几何形状和外观，为场景表示和渲染提供了一种有前景的替代方案。

虽然准确的3D重建至关重要，但真正的场景理解还需要能够识别和标记环

境中的对象。为此，我们集成了先进的计算机视觉模型，这些模型提供了稳健的对象检测和精确分割能力。通过将这些技术与3D高斯溅射相结合，我们生成了一个语义丰富的环境表示，其中每个高斯溅射都与一个对象标签相关联。这使得机器人系统能够理解环境的空间结构以及对象之间的语义关系，从而实现跨多个相机帧的准确对象识别、跟踪和交互。

我们方法的另一个新颖之处在于支持开放式词汇查询。通过融入自然语言处理技术，我们的系统允许用户或更高级别的规划算法使用灵活、人性化的描述来定位对象。这一功能显著增强了机器人系统的适应性，使其能够理解和执行广泛的命令，而不仅仅局限于一组预定义的对象类别。

最后，我们通过实现一个利用语义标注3D模型的最优路径规划算法，展示了我们的框架的实际效用。这允许机器人从当前位置高效地导航到查询的对象，同时考虑环境的空间布局和潜在的障碍物。

2. 摘要

我们介绍了Go-SLAM，这是一个新的框架，它利用3D高斯Splatting SLAM来重建动态环境，同时在场景表示中嵌入对象级信息。该框架采用先进的对象分割技术，为每个高斯splat分配一个唯一的标识符，该标识符对应于它所表示的对象。因此，我们的系统促进了开放词汇查询，允许用户使用自然语言描述来定位对象。此外，该框架具有最佳路径生成模块，该模块考虑到障碍和环境不确定性，为机器人向查询对象计算有效的导航路径。在各种场景设置中的综合评估证明了我们的方法在提供高保真场景重建、精确的对象分割、灵活的对象查询和高效的机器人路径规划方面的有效性。这项工作代表着在弥合3D场景重建、语义对象理解和实时环境交互之间的差距方面又向前迈出了一步。

3. 效果展示

4. 主要贡献

本文的主要贡献可以概括如下：

• 采用最先进的对象分割和标记技术，实现了3D高斯溅射SLAM的新颖实现。

• 开发了一个开放式词汇查询系统，能够在3D重建环境中灵活定位对象。

• 全面的实验结果表明，我们的方法在各种场景下在精确度、召回率和交并比（IoU）方面分别提高了高达17%、27%和35%，从而证明了其有效性。推荐课程：实时400FPS！高精NeRF/Gaussian SLAM定位与建图。

通过结合这些组件，我们的框架朝着创建更智能、更可适应的机器人系统迈出了重要一步。据我们所知，这是首个能够理解和与复杂、未知环境进行交互的SLAM框架。

5. 方法

在本节中，我们概述了我们的框架Go-SLAM的综合方法，该框架采用前沿技术，通过RGBD相机捕获的环境实现高精度且高效的3D重建。据我们所知，这是首个集成了语言特征的SLAM系统，支持开放词汇的对象检测和定位。图2展示了我们的框架概述。

6. 实验结果

7. 总结 & 未来工作

综上所述，Go-SLAM引入了一种新颖的3D场景重建方法，将高斯飞溅SLAM与最先进的对象分割和开放词汇查询相结合。我们的框架成功地将3D重建、对象检测和自然语言理解整合在一起，以实现实时环境交互。通过全面的实验，我们证明了Go-SLAM在精确度、召回率和交并比（IoU）方面均优于基线方法，特别是在处理复杂、未知环境时表现尤为突出。该系统能够无缝地将对象级信息嵌入到3D场景中，从而实现灵活的对象定位和查询。总体而言，Go-SLAM代表了SLAM技术的重要进步，填补了场景重建与语义对象理解之间的空白。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

3D视觉工坊可提供顶会论文的课题如下：