具身万物？清华开源EmbodiedSAM：实时在线3D分割一切！

作者：3D视觉工坊发布时间：2024-09-09

来源：3D视觉工坊

添加小助理：CV3d008，备注：方向+学校/公司+昵称，拉你入群。

加入「3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 这篇文章干了啥？

具身任务，如机器人操作和导航，要求代理理解3D场景，理解人类指令，并通过自我行动做出决策。在这一流程中，具身视觉感知是各种下游任务的基础。在具身场景中，我们希望3D感知模型具备以下特点：（1）在线性。输入数据是流式RGB-D视频而非预先收集的数据，视觉感知应与数据采集同步进行；（2）实时性。需要高推理速度；（3）细粒度。应识别场景中几乎出现的任何物体；（4）高度泛化。一个模型可以应用于不同类型的场景，并与不同的传感器参数（如相机内参）兼容。由于高质量3D数据有限，在纯3D环境中训练此类模型几乎不可行。受大型语言模型（LLMs）巨大成就的启发，一系列视觉基础模型（VFMs）如SAM和SEEM应运而生。VFMs通过其对图像像素的细粒度、准确且可泛化的分割，正在彻底改变2D计算机视觉领域。然而，针对3D领域开发VFMs的研究较少。与2D数据相比，高质量标注的3D数据要少得多，因此探索现有2D VFMs在具身3D感知中的适应或扩展具有巨大潜力。

最近，有一些工作采用SAM在3D场景的多视图图像上自动生成掩码，并通过投影和迭代合并的方式在3D中合并这些掩码。虽然这些方法实现了具有高泛化能力的细粒度3D实例分割，但它们仍面临一些严重问题，阻碍了其应用：（1）它们在单个图像上应用SAM，并直接使用相机参数将2D掩码投影到3D点云上。因此，预测结果不具备几何感知能力，可能会在不同视图间产生不一致的结果；（2）它们在3D中通过手工策略合并每帧的掩码预测。例如，计算所有掩码对之间的几何相似性并根据阈值进行合并，这种方法既不准确又非常慢；（3）它们中的大多数是基于预先收集的RGB-D帧和3D重建的离线方法。

在本文中，我们提出了一个VFM辅助的3D实例分割框架，即Embodied-SAM（ESAM），该框架利用SAM的强大功能，以高精度、快速和强大的泛化能力在线分割3D场景中的任何物体。如图1所示，与以往将2D掩码投影到3D并用手工策略合并的3D SAM方法不同，ESAM将2D掩码提升为3D查询，并通过迭代查询细化预测出时间和几何上一致的3D掩码。得益于3D查询表示，ESAM还能够通过简单的矩阵运算快速合并不同帧中的3D掩码。具体来说，我们从深度图像投影的点云中提取逐点特征。然后，我们将SAM生成的2D掩码视为超点，用于指导我们提出的几何感知池化模块进行掩码级聚合，生成与SAM掩码一一对应的3D查询。我们进一步提出了一个双级查询解码器来迭代细化3D查询，使查询能够有效地与超点特征关联并生成细粒度的逐点掩码。由于每个3D实例掩码都与一个查询相关联，我们可以通过高效的并行矩阵乘法计算新预测的3D掩码与先前掩码之间的相似性，并准确合并它们。为了增强查询特征的判别能力，我们设计了三个具有代表性的辅助任务来估计几何、对比和语义相似性。我们在ScanNet、ScanNet200、SceneNN和3RScan数据集上进行了大量实验。与之前的VFM辅助3D实例分割方法相比，我们在准确性和速度上都有了大幅提升，同时仍然保持了强大的泛化能力。此外，ESAM可以轻松扩展到开放词汇分割，并在数据有限的情况下显示出巨大的潜力。

下面一起来阅读一下这项工作~

1. 论文信息

标题：EmbodiedSAM: Online Segment Any 3D Thing in Real Time

作者：Xiuwei Xu, Huangxing Chen, Linqing Zhao, Ziwei Wang, Jie Zhou, Jiwen Lu

机构：清华大学、南洋理工大学

原文链接：https://arxiv.org/abs/2408.11811

代码链接：https://github.com/xuxw98/ESAM

官方主页：https://xuxw98.github.io/ESAM/

2. 摘要

实体任务要求代理在探索的同时充分理解3D场景，因此迫切需要一个在线、实时、细粒度且高度泛化的3D感知模型。由于高质量3D数据有限，直接在3D中训练此类模型几乎不可行。同时，视觉基础模型（VFM）以卓越的性能彻底改变了二维计算机视觉领域，这使得利用VFM辅助实体3D感知成为一个有前景的方向。然而，现有的大多数VFM辅助3D感知方法要么是离线的，要么速度太慢，无法应用于实际的实体任务中。在本文中，我们旨在利用“Segment Anything Model”（SAM）实现在线实时3D实例分割。这是一个具有挑战性的问题，因为输入流RGB-D视频中不包含未来帧，且实例可能在多个帧中被观察到，因此需要进行帧间对象匹配。为解决这些挑战，我们首先提出了一个几何感知查询提升模块，该模块使用3D感知查询来表示SAM生成的2D掩码，然后通过双级查询解码器进行迭代优化。这样，2D掩码就被转换为3D点云上的细粒度形状。得益于3D掩码的查询表示，我们可以通过高效的矩阵运算计算不同视角3D掩码之间的相似度矩阵，从而实现实时推理。在ScanNet、ScanNet200、SceneNN和3RScan上的实验表明，即使与离线方法相比，我们的方法也达到了领先性能。我们的方法还在多个零样本数据集迁移实验中展示了强大的泛化能力，并在开放词汇和数据高效设置中展现出巨大潜力。代码已公开，训练和评估仅需一块RTX 3090 GPU。

3. 效果展示

4. 基本原理是啥？

给定一系列带有已知姿态的RGB-D图像序列Xt = {x1, x2, ..., xt}，我们的目标是对相应3D场景中的任何实例进行分割。形式上，xt = (It, Pt)，其中It是彩色图像，Pt是通过将深度图像投影到具有姿态参数的3D空间中获得的点云。我们的方法需要预测观测到的3D场景St的实例掩码，其中St是St中所有Pi（i=1到n）的集合。此外，
我们希望在线解决此问题；也就是说，在任何时间t，未来的帧xi（i > t）都是未知的，并且应该在每个时间点上预测St的时间一致的3D实例掩码。
概述。我们的方法概述如图2所示。我们以增量的方式解决在线3D实例分割问题，以实现实时处理。在时间t，我们仅预测当前帧Pt的实例掩码Mcurt。然后，我们将Mcurt与St-1的先前实例掩码Mpret-1合并，得到St的更新实例掩码Mpret。

6. 实验结果

7. 总结 & 未来工作

在本文中，我们提出了ESAM，这是一个高效框架，它利用视觉基础模型（Vision Foundation Models, VFM）实现在线、实时、细粒度、泛化和开放词汇量的3D实例分割。我们提出将VFM生成的2D掩码通过几何感知池化提升到3D查询，随后使用双路径查询解码器来细化查询并生成精确的3D实例掩码。然后，利用查询-掩码对应关系，我们设计了三个辅助任务，将每个3D掩码表示为三个具有区分性的向量，从而能够通过矩阵运算实现快速掩码合并。在四个数据集上进行的大量实验结果表明，ESAM实现了领先的性能、在线实时推理和强大的泛化能力。此外，ESAM在开放词汇量和数据高效设置方面也展现出了巨大潜力。我们相信，ESAM为如何有效利用2D VFM进行具身感知带来了新的范式。

潜在局限性。尽管性能令人满意，但ESAM仍存在一些局限性。首先，ESAM是否实时取决于所采用的VFM。目前我们采用了SAM和FastSAM，其中只有FastSAM能够实现实时推理。然而，我们相信未来将有更高效、性能更好、功能更丰富的2D VFM出现，ESAM也将随着2D VFM的改进而进一步优化。其次，用于特征提取的3D U-Net和基于内存的适配器相对较重，占用了ESAM 3D部分大部分推理时间。如果我们能使主干网络更高效，ESAM的速度可能会提升到更高水平，这将是未来的研究方向。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

35个顶会论文的课题如下：

添加助理：CV3d007

1、基于环境信息的定位，重建与场景理解

2、轻是级高保真Gaussian Splatting

3、基于大模型与GS的 6D pose estimation

4、在挑战性遮挡环境下的GS-SLAM系统研究

5、基于零知识先验的实时语义地图构建SLAM系统

6、基于3DGS的实时语义地图构建

7、基于文字特征的城市环境SLAM

8、面向挑战性环境的SLAM系统研究

9、特殊激光传感器融合视觉的稠密SLAM系统

10、基于鲁棒描述子与特征匹配的特征点法SLAM

11、基于yolo-world的语义SL系统

12、基于自监督分割的挑战性环境高斯SLAM系统

13、面向动态场景的视觉SLAM系统研究

14、面向动态场景的GS-SLAM系统研究

15、集成物体级地图的GS-SLAM系统

16、挑战场景下2D-2D，2D-3D或3D-3D配准问题

17、未知物体同时重建与位姿估计问题类别级或开放词汇位姿估计问题

18、位姿估计中的域差距问题

19、可形变对象(软体)的实时三维重建与非刚性配准

20、机器人操作可形变对象建模与仿真

21、基于图像或点云3D目标检测、语义分割、轨迹预测.

22、医疗图像分割任务的模型结构设计

23、多帧融合的单目深度估计系统研究

24、复杂天气条件下的单目深度估计系统研究高精度的单目深度估计系统研究

25、基于大模型的单目深度估计系统研究

26、高精度的光流估计系统多传感器融合的单目深度估计系统研究

27、基于扩散模型的跨域鲁棒自动驾驶场景理解

28、水下图像复原/增强

30、Real-World图像去雾(无监督/物理驱动)

31、LDR图像/视频转HDR图像/视频

32、光场图像增强/复原/超分辨率

33、压缩后图像/视频的增强/复原

34、图像色彩增强(image retouching)

近期资讯

中建二局第四建筑工程取得一种焊接点打磨装置专利，为管材焊接点的打磨工作增添操作使用便捷
金融界2024年12月30日消息，国家知识产权局信息显示，中建二局第四建筑工程有限公司取得一项名为“一种焊接点打磨装置”的专利，授权公告号CN222222073U，申请日期为2024年4月。
金融界 2024-12-30

如何轻松关联QQ账号，提升社交与工作沟通的效率与安全性
想要了解怎么关联QQ，首先我们得知道关联QQ的目的是什么。关联QQ其实是为了让我们更方便地使用这个平台，也许是和其他社交媒体账号绑定，或者是为了在不同设备上同步信息。在开始之前，我们先来看看QQ的基本功能。可以说，QQ已经成为了我们生活中不可或缺的一部分。
新报观察 2024-12-30

如何设置苹果手机实现接听电话时的震动提醒功能解析
在我们日常生活中，手机已经成为了不可或缺的一部分。无论是工作、社交还是娱乐，手机都扮演着重要的角色。尤其是苹果手机，以其简洁的操作和流畅的体验，吸引了无数用户。今天，我们来聊聊一个实用的小技巧——如何设置苹果手机接通电话时的震动提醒。说到震动提醒，很多人可能觉得这好像是个小事，但其实它能在很多场合下给我们带来方便。
新报观察 2024-12-30

如何轻松下载安装微信，掌握使用技巧与注意事项分享
录”里，点击右上角的“添加朋友”，通过手机号、微信号或者扫一扫来添加好友。这样就能轻松找到身边的朋友，随时随地聊天。如果你想使用微信支付，那就更方便了。只要绑定你的银行卡，就能轻松进行转账、付款，甚至购物。支付的时候，微信的二维码功能也非常实用，商家只需扫描你的二维码，你的钱就能瞬间到账。当然，使用微信的时候，保护个人隐私也很重要。
新报观察 2024-12-30

如何设置U盘启动：步骤详解与常见问题解决指南
那么，怎么设置U盘启动呢？你需要一个U盘，容量一般来说8GB就足够了，当然，如果你要安装大一些的操作系统，可能需要更大的。
新报观察 2024-12-30

如何解决以太网未连接问题：实用技巧与步骤分享
在日常生活中，网络已经成为我们不可或缺的一部分。无论是工作、学习还是娱乐，网络的稳定性都直接影响着我们的体验。然而，有时候我们会遇到“以太网未连接”的问题，这可真让人头疼。别担心，今天就来聊聊这个问题，看看我们该如何解决。首先，遇到以太网未连接的情况，最常见的就是网络线的问题。你可以先检查一下网线是否插好。
新报观察 2024-12-30

宁波市镇海甬力取得球体铸件表面处理装置专利，可自动调节铸件角度提高打磨效率
金融界2024年12月30日消息，国家知识产权局信息显示，宁波市镇海甬力机械铸造有限公司取得一项名为“一种球体铸件表面处理装置”的专利，授权公告号CN222222079U，申请日期为2024年5月。专利摘要显示，实用新型提供了一种球体铸件表面处理装置，属于铸造件表面处理技术领域。
金融界 2024-12-30

安徽望博新材料取得用于铝板带生产的边条去毛边装置专利，提高去毛边的工作质量
金融界2024年12月30日消息，国家知识产权局信息显示，安徽望博新材料有限公司取得一项名为“用于铝板带生产的边条去毛边装置”的专利，授权公告号CN222222077U，申请日期为2024年5月。专利摘要显示，本实用新型公开了用于铝板带生产的边条去毛边装置，属于铝板带生产技术领域。
金融界 2024-12-30

滁州瑞华玻璃取得玻璃加工磨侧边设备专利，解决玻璃磨边时过热导致破裂或磨削效果不佳的问题
金融界2024年12月30日消息，国家知识产权局信息显示，滁州瑞华玻璃科技有限公司取得一项名为“一种玻璃加工磨侧边设备”的专利，授权公告号CN222222083U，申请日期为2024年1月。
金融界 2024-12-30

海宁明益电子取得压铸件表面处理设备专利，可对压铸件不同位置进行充分均匀打磨
金融界2024年12月30日消息，国家知识产权局信息显示，海宁明益电子科技有限公司取得一项名为“一种压铸件表面处理设备”的专利，授权公告号CN222222078U，申请日期为2024年5月。专利摘要显示，本实用新型涉及压铸件加工技术领域，公开了一种压铸件表面处理设备，包括底座，所述底座顶端的内部设置有安装板。
金融界 2024-12-30

具身万物？清华开源EmbodiedSAM：实时在线3D分割一切！

推荐体验

相关资讯

图像分割领域的GPT-4.0，分割一切的AI算法：Segment Anything

3D版Sora来了？UMass、MIT等提出3D世界模型，具身智能机器人实现新里程碑

通用视觉的GPT时刻来临？智源推出通用分割模型SegGPT，可「分割一切」

PyTorch团队重写「分割一切」模型，比原始实现快8倍

图片合成3D视频！开源的3D渲染视频模型问世！

近期资讯

中建二局第四建筑工程取得一种焊接点打磨装置专利，为管材焊接点的打磨工作增添操作使用便捷

如何轻松关联QQ账号，提升社交与工作沟通的效率与安全性

如何设置苹果手机实现接听电话时的震动提醒功能解析

如何轻松下载安装微信，掌握使用技巧与注意事项分享

如何设置U盘启动：步骤详解与常见问题解决指南

如何解决以太网未连接问题：实用技巧与步骤分享

宁波市镇海甬力取得球体铸件表面处理装置专利，可自动调节铸件角度提高打磨效率

安徽望博新材料取得用于铝板带生产的边条去毛边装置专利，提高去毛边的工作质量

滁州瑞华玻璃取得玻璃加工磨侧边设备专利，解决玻璃磨边时过热导致破裂或磨削效果不佳的问题

海宁明益电子取得压铸件表面处理设备专利，可对压铸件不同位置进行充分均匀打磨

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响