来源:3D视觉工坊
添加小助理:CV3d008,备注:方向+学校/公司+昵称,拉你入群。
加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0. 这篇文章干了啥?
具身任务,如机器人操作和导航,要求代理理解3D场景,理解人类指令,并通过自我行动做出决策。在这一流程中,具身视觉感知是各种下游任务的基础。在具身场景中,我们希望3D感知模型具备以下特点:(1)在线性。输入数据是流式RGB-D视频而非预先收集的数据,视觉感知应与数据采集同步进行;(2)实时性。需要高推理速度;(3)细粒度。应识别场景中几乎出现的任何物体;(4)高度泛化。一个模型可以应用于不同类型的场景,并与不同的传感器参数(如相机内参)兼容。由于高质量3D数据有限,在纯3D环境中训练此类模型几乎不可行。受大型语言模型(LLMs)巨大成就的启发,一系列视觉基础模型(VFMs)如SAM和SEEM应运而生。VFMs通过其对图像像素的细粒度、准确且可泛化的分割,正在彻底改变2D计算机视觉领域。然而,针对3D领域开发VFMs的研究较少。与2D数据相比,高质量标注的3D数据要少得多,因此探索现有2D VFMs在具身3D感知中的适应或扩展具有巨大潜力。
最近,有一些工作采用SAM在3D场景的多视图图像上自动生成掩码,并通过投影和迭代合并的方式在3D中合并这些掩码。虽然这些方法实现了具有高泛化能力的细粒度3D实例分割,但它们仍面临一些严重问题,阻碍了其应用:(1)它们在单个图像上应用SAM,并直接使用相机参数将2D掩码投影到3D点云上。因此,预测结果不具备几何感知能力,可能会在不同视图间产生不一致的结果;(2)它们在3D中通过手工策略合并每帧的掩码预测。例如,计算所有掩码对之间的几何相似性并根据阈值进行合并,这种方法既不准确又非常慢;(3)它们中的大多数是基于预先收集的RGB-D帧和3D重建的离线方法。
在本文中,我们提出了一个VFM辅助的3D实例分割框架,即Embodied-SAM(ESAM),该框架利用SAM的强大功能,以高精度、快速和强大的泛化能力在线分割3D场景中的任何物体。如图1所示,与以往将2D掩码投影到3D并用手工策略合并的3D SAM方法不同,ESAM将2D掩码提升为3D查询,并通过迭代查询细化预测出时间和几何上一致的3D掩码。得益于3D查询表示,ESAM还能够通过简单的矩阵运算快速合并不同帧中的3D掩码。具体来说,我们从深度图像投影的点云中提取逐点特征。然后,我们将SAM生成的2D掩码视为超点,用于指导我们提出的几何感知池化模块进行掩码级聚合,生成与SAM掩码一一对应的3D查询。我们进一步提出了一个双级查询解码器来迭代细化3D查询,使查询能够有效地与超点特征关联并生成细粒度的逐点掩码。由于每个3D实例掩码都与一个查询相关联,我们可以通过高效的并行矩阵乘法计算新预测的3D掩码与先前掩码之间的相似性,并准确合并它们。为了增强查询特征的判别能力,我们设计了三个具有代表性的辅助任务来估计几何、对比和语义相似性。我们在ScanNet、ScanNet200、SceneNN和3RScan数据集上进行了大量实验。与之前的VFM辅助3D实例分割方法相比,我们在准确性和速度上都有了大幅提升,同时仍然保持了强大的泛化能力。此外,ESAM可以轻松扩展到开放词汇分割,并在数据有限的情况下显示出巨大的潜力。
下面一起来阅读一下这项工作~
1. 论文信息
标题:EmbodiedSAM: Online Segment Any 3D Thing in Real Time
作者:Xiuwei Xu, Huangxing Chen, Linqing Zhao, Ziwei Wang, Jie Zhou, Jiwen Lu
机构:清华大学、南洋理工大学
原文链接:https://arxiv.org/abs/2408.11811
代码链接:https://github.com/xuxw98/ESAM
官方主页:https://xuxw98.github.io/ESAM/
2. 摘要
实体任务要求代理在探索的同时充分理解3D场景,因此迫切需要一个在线、实时、细粒度且高度泛化的3D感知模型。由于高质量3D数据有限,直接在3D中训练此类模型几乎不可行。同时,视觉基础模型(VFM)以卓越的性能彻底改变了二维计算机视觉领域,这使得利用VFM辅助实体3D感知成为一个有前景的方向。然而,现有的大多数VFM辅助3D感知方法要么是离线的,要么速度太慢,无法应用于实际的实体任务中。在本文中,我们旨在利用“Segment Anything Model”(SAM)实现在线实时3D实例分割。这是一个具有挑战性的问题,因为输入流RGB-D视频中不包含未来帧,且实例可能在多个帧中被观察到,因此需要进行帧间对象匹配。为解决这些挑战,我们首先提出了一个几何感知查询提升模块,该模块使用3D感知查询来表示SAM生成的2D掩码,然后通过双级查询解码器进行迭代优化。这样,2D掩码就被转换为3D点云上的细粒度形状。得益于3D掩码的查询表示,我们可以通过高效的矩阵运算计算不同视角3D掩码之间的相似度矩阵,从而实现实时推理。在ScanNet、ScanNet200、SceneNN和3RScan上的实验表明,即使与离线方法相比,我们的方法也达到了领先性能。我们的方法还在多个零样本数据集迁移实验中展示了强大的泛化能力,并在开放词汇和数据高效设置中展现出巨大潜力。代码已公开,训练和评估仅需一块RTX 3090 GPU。
3. 效果展示
4. 基本原理是啥?
给定一系列带有已知姿态的RGB-D图像序列Xt = {x1, x2, ..., xt},我们的目标是对相应3D场景中的任何实例进行分割。形式上,xt = (It, Pt),其中It是彩色图像,Pt是通过将深度图像投影到具有姿态参数的3D空间中获得的点云。我们的方法需要预测观测到的3D场景St的实例掩码,其中St是St中所有Pi(i=1到n)的集合。此外,
我们希望在线解决此问题;也就是说,在任何时间t,未来的帧xi(i > t)都是未知的,并且应该在每个时间点上预测St的时间一致的3D实例掩码。
概述。我们的方法概述如图2所示。我们以增量的方式解决在线3D实例分割问题,以实现实时处理。在时间t,我们仅预测当前帧Pt的实例掩码Mcurt。然后,我们将Mcurt与St-1的先前实例掩码Mpret-1合并,得到St的更新实例掩码Mpret。
6. 实验结果
7. 总结 & 未来工作
在本文中,我们提出了ESAM,这是一个高效框架,它利用视觉基础模型(Vision Foundation Models, VFM)实现在线、实时、细粒度、泛化和开放词汇量的3D实例分割。我们提出将VFM生成的2D掩码通过几何感知池化提升到3D查询,随后使用双路径查询解码器来细化查询并生成精确的3D实例掩码。然后,利用查询-掩码对应关系,我们设计了三个辅助任务,将每个3D掩码表示为三个具有区分性的向量,从而能够通过矩阵运算实现快速掩码合并。在四个数据集上进行的大量实验结果表明,ESAM实现了领先的性能、在线实时推理和强大的泛化能力。此外,ESAM在开放词汇量和数据高效设置方面也展现出了巨大潜力。我们相信,ESAM为如何有效利用2D VFM进行具身感知带来了新的范式。
潜在局限性。尽管性能令人满意,但ESAM仍存在一些局限性。首先,ESAM是否实时取决于所采用的VFM。目前我们采用了SAM和FastSAM,其中只有FastSAM能够实现实时推理。然而,我们相信未来将有更高效、性能更好、功能更丰富的2D VFM出现,ESAM也将随着2D VFM的改进而进一步优化。其次,用于特征提取的3D U-Net和基于内存的适配器相对较重,占用了ESAM 3D部分大部分推理时间。如果我们能使主干网络更高效,ESAM的速度可能会提升到更高水平,这将是未来的研究方向。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
35个顶会论文的课题如下:
添加助理:CV3d007
1、基于环境信息的定位,重建与场景理解
2、轻是级高保真Gaussian Splatting
3、基于大模型与GS的 6D pose estimation
4、在挑战性遮挡环境下的GS-SLAM系统研究
5、基于零知识先验的实时语义地图构建SLAM系统
6、基于3DGS的实时语义地图构建
7、基于文字特征的城市环境SLAM
8、面向挑战性环境的SLAM系统研究
9、特殊激光传感器融合视觉的稠密SLAM系统
10、基于鲁棒描述子与特征匹配的特征点法SLAM
11、基于yolo-world的语义SL系统
12、基于自监督分割的挑战性环境高斯SLAM系统
13、面向动态场景的视觉SLAM系统研究
14、面向动态场景的GS-SLAM系统研究
15、集成物体级地图的GS-SLAM系统
16、挑战场景下2D-2D,2D-3D或3D-3D配准问题
17、未知物体同时重建与位姿估计问题类别级或开放词汇位姿估计问题
18、位姿估计中的域差距问题
19、可形变对象(软体)的实时三维重建与非刚性配准
20、机器人操作可形变对象建模与仿真
21、基于图像或点云3D目标检测、语义分割、轨迹预测.
22、医疗图像分割任务的模型结构设计
23、多帧融合的单目深度估计系统研究
24、复杂天气条件下的单目深度估计系统研究高精度的单目深度估计系统研究
25、基于大模型的单目深度估计系统研究
26、高精度的光流估计系统多传感器融合的单目深度估计系统研究
27、基于扩散模型的跨域鲁棒自动驾驶场景理解
28、水下图像复原/增强
30、Real-World图像去雾(无监督/物理驱动)
31、LDR图像/视频转HDR图像/视频
32、光场图像增强/复原/超分辨率
33、压缩后图像/视频的增强/复原
34、图像色彩增强(image retouching)