当前位置:首页|资讯

NeurlPS'24开源 | 想分割什么随便说!DeiSAM:使用提示分割一切

作者:3D视觉工坊发布时间:2024-10-10

0. 论文信息

标题:DeiSAM: Segment Anything with Deictic Prompting

作者:Hikaru Shindo, Manuel Brack, Gopika Sudhakaran, Devendra Singh Dhami, Patrick Schramowski, Kristian Kersting

机构:1Technical University of Darmstadt 2German Research Center for AI (DFKI) 3Hessian Center for AI (hessian.AI) 4Eindhoven University of Technology 5LAION 6Centre for Cognitive Science, Technical University of Darmstadt

原文链接:https://arxiv.org/abs/2402.14123

代码链接:https://github.com/ml-research/deictic-segment-anything

1. 导读

大规模、预训练的神经网络在各种任务中表现出强大的能力,包括零拍摄图像分割。为了在复杂的场景中识别具体的物体,人类本能地依赖自然语言中的指示描述,即,根据上下文指代某些东西,如“桌子上和杯子后面的物体”。然而,深度学习方法无法可靠地解释这种指示表示,因为它们在复杂场景中缺乏推理能力。为了解决这个问题,我们提出了dei Sam——大型预训练神经网络与可微分逻辑推理器的组合——用于指示提示切分。给定复杂的文本分割描述,DeiSAM利用大型语言模型(LLM)来生成一阶逻辑规则,并在生成的场景图上执行可微分的正向推理。随后,DeiSAM通过将对象与逻辑推断的图像区域进行匹配来分割对象。作为我们评估的一部分,我们提出了指示视觉基因组(DeiVG)数据集,包含成对的视觉输入和复杂的指示文本提示。我们的实证结果表明,对于指示提示性细分,DeiSAM是对纯数据驱动基线的实质性改进。

2. 引言

近年来,大规模神经网络在视觉与语言交叉领域的各项任务中取得了显著进展。其中一项挑战是基于文本描述的图像分割,即通过文本描述来识别场景中的物体。例如,当提供适当的提示时,将Grounding Dino与“Segment Anything Model”(SAM)相结合,在该任务上表现出色。然而,数据驱动神经方法的一个众所周知的局限性是其缺乏推理能力。

相比之下,人类通过结构化的描述来识别复杂场景中的物体,这些描述会根据上下文指向某个物体,例如“一个在船上并且打着伞的物体”。这些描述被称为指示性表征,它们是在语言学动机下引入人工智能研究的,随后被应用于强化学习。尽管指示性表征在人类理解场景的过程中发挥着核心作用,但由于当前方法的推理能力较差,它们无法忠实地解释这些表征。

为了解决这些问题,我们提出了DeiSAM,这是一个将大型预训练神经网络与可微逻辑推理器相结合的系统,用于指示性可提示的对象检测和分割。DeiSAM管道具有高度模块化且完全可微的特点,巧妙地将大型预训练网络和神经符号推理器结合在一起。具体来说,我们利用大型语言模型(LLMs)为给定的指示性提示生成逻辑规则,并利用场景图生成器执行可微前向推理。通过利用计算图上的前向传播,推理器与神经网络实现了高效结合。这一推理步骤的结果被用于为分割模型提供基础,该模型能够可靠地识别出与输入最匹配的物体。

3. 效果展示

如图1所示,当面临需要对多个物体的关系和属性进行高级推理的复杂提示时,其他方法往往无法成功理解。

4. 主要贡献

我们的贡献如下:1)我们提出了DeiSAM1,这是一个基于LLMs和场景图的模块化神经符号推理管道,用于处理复杂文本提示下的对象分割。2)我们引入了一个新的Deictic Visual Genome(DeiVG)基准数据集,其中包含视觉场景以及与指示性表征配对的场景,即场景中物体的复杂文本标识。3)我们通过实验证明,DeiSAM在指示性分割任务上显著优于神经基线方法。4)我们展示了DeiSAM可以通过可微推理进行端到端训练,以适应复杂的下游推理任务,从而提高分割质量。

5. 方法

DeiSAM架构。输入为一张图像及其对应的指示性提示。我们将图像解析为场景图(1),并利用大型语言模型生成与指示性提示相对应的逻辑规则(2)。生成的场景图和规则被输入到语义统一模块(3)中,在该模块中,同义词被统一。例如,场景图中的“boat”(船)和生成规则中的“barge”(驳船)将被解释为同一术语。接下来,前向推理器(4)根据文本指示性提示推断出目标对象。最后,我们对提取出的目标对象裁剪图像区域执行对象分割(5)。由于前向推理器是可微分的,因此梯度可以在整个流程中传递。(彩色显示效果最佳)

6. 实验结果

7. 总结 & 未来工作

我们提出DeiSAM架构,以在复杂场景中进行指示性对象分割。DeiSAM在一个模块化流程中有效地将大规模神经网络与可微分前向推理相结合。DeiSAM允许用户通过与其他对象的关系,直观地描述复杂场景中的对象。此外,我们还引入了新颖的指示性视觉基因组(DeiVG)基准,用于具有复杂指示性提示的分割任务。在大量实验中,我们证明DeiSAM显著优于神经基线方法,凸显了其在处理具有复杂文本提示的视觉场景时的强大推理能力。为此,我们的实证结果揭示了视觉场景理解中的开放研究问题和未来研究的重要方向。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊可提供顶会论文的课题如下:




Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1