当前位置:首页|资讯

超越SOTA!Interactive4D:第一个交互式4D LiDAR分割!

作者:3D视觉工坊发布时间:2024-10-16

0. 论文信息

标题:Interactive4D: Interactive 4D LiDAR Segmentation

作者:Ilya Fradlin, Idil Esen Zulfikar, Kadir Yilmaz, Theodora Kontogianni, Bastian Leibe

机构:RWTH Aachen University、ETH AI Center

原文链接:https://arxiv.org/abs/2410.08206

代码链接:https://github.com/Ilya-Fradlin/Interactive4D

官方主页:https://ilya-fradlin.github.io/Interactive4D/

1. 导读

交互式分割在促进未来激光雷达数据集的注记过程中具有重要作用。现有的方法在每次激光雷达扫描时顺序分割单个物体,在整个序列中重复该过程,这是多余的和无效的。在这项工作中,我们提出了交互式4D分割,这是一种允许同时分割多个激光雷达扫描上的多个对象的新范式,以及interactive 4D,这是第一个交互式4D分割模型,它通过利用激光雷达数据的顺序性质,在单次迭代中分割叠加的连续激光雷达扫描上的多个对象。在执行交互式分割时,我们的模型利用整个时空体积,从而实现更高效的分割。在4D卷上操作,它直接提供随时间变化的一致的实例id,还简化了跟踪注释。此外,我们表明点击模拟对于激光雷达点云上的成功模型训练至关重要。为此,我们设计了一种更适合激光雷达数据特点的点击模拟策略。为了证明其准确性和有效性,我们在多个激光雷达数据集上评估了Interactive4D,其中Interactive4D大幅达到了新的最先进水平。

2. 引言

深度学习方法的显著发展在很大程度上得益于大规模标注数据集]的可用性,特别是在二维领域。然而,标注大规模三维数据集仍然具有挑战性,这主要是因为点云规模庞大且需要大量的人工标注工作。因此,标注过的三维数据集稀缺,阻碍了稳健三维模型的发展。这凸显了为三维数据量身定制高效标注方法的必要性。交互式分割通过使用户能够以最小的努力创建高质量标注,为解决这一问题提供了有前途的方案。在这种方法中,用户通过稀疏的用户交互引导模型对点云中的每个点进行密集标注。

这推动了三维交互式分割的研究。早期的研究主要集中在室内点云上,其中初始工作将任务框架设定为单目标交互式分割。在这种设置下,标注者通过点击目标上的正例和其他区域上的负例来单独分割每个目标,基本上将其视为一个二值分割问题。最近的工作将任务重新定义为多目标交互式分割,其中标注者同时分割多个目标。在这里,一个目标的正例点击本质上充当其他目标的负例点击,从而更有效地利用用户输入并提高效率。这两种方法都只考虑了交互式分割目标实例(即“事物”),而忽略了无形状区域(即“背景”)。

在本文中,我们为激光雷达数据应用了“一次性分割所有内容”的策略,并提出了交互式四维分割,这是一种新范式,其中标注者同时在多个激光雷达扫描上分割多个目标。为了证明这一范式的有效性,我们提出了Interactive4D,这是第一个在叠加的连续激光雷达扫描上对“事物”和“背景”对象执行多目标分割的交互式四维分割模型。这通过在整个四维时空激光雷达体积中实现多目标交互式分割来提高效率。通过直接在四维数据上工作,Interactive4D固有地确保了在叠加的连续激光雷达扫描上一致的实例ID(图1,右)。这使得它非常适用于跟踪任务,简化了激光雷达跟踪数据集的标注过程,同时也为未来的研究方向铺平了道路。推荐课程:ROS2从入门到精通:理论与实战。

在交互式社区中,模拟点击通常用于训练和测试。许多方法通常会模拟一个用户,该用户总是点击最大误差区域的中心,而其他方法则随机选择点击位置。这两种方法在激光雷达数据上都具有明显局限性。前者会产生高昂的计算成本,导致运行时间更慢,而这两种方法在处理室外场景中常见的小物体和大物体之间的稀疏性和尺寸变化时都会遇到困难,通常会导致分割质量不佳。为了克服这些局限性,我们为训练和评估提出了一种新的点击模拟策略。它通过考虑激光雷达点云的稀疏性质、识别最相关的点击区域以及有效管理小物体和大物体之间的尺寸变化,来生成增强且尺度不变的点击模拟。

遵循评估协议,我们在SemanticKITTI上训练Interactive4D,并在多个数据集上进行评估,以评估其在同分布和零样本情况下的性能。我们报告了单目标、多目标和四维交互式分割设置的结果,在所有设置下均取得了最先进的性能。为了评估现实世界中的泛化能力,我们将Interactive4D集成到一个用户界面中,并开展了一项用户研究,其中参与者对选定场景进行了标注。研究表明,Interactive4D不仅在模拟点击中表现良好,而且在真实用例中也表现优异。

3. 效果展示

尽管在室内点云上取得了成功,但室外激光雷达点云的交互式分割仍研究不足。最近有几项工作尝试解决这一任务,但它们仍遵循单目标范式,该范式已被证明不如多目标范式高效。此外,它们将每个激光雷达扫描视为独立实体,忽略了激光雷达扫描的序列性质(图1,左)。鉴于激光雷达传感器以高频运行,连续扫描会捕获重叠区域。因此,独立标注每个扫描是不高效的,会导致不必要的标注工作。此外,每个扫描的独立标注会使在连续扫描中保持一致的实例ID的任务变得复杂,这对于跟踪任务至关重要。

4. 主要贡献

我们的贡献如下:(1)我们提出了交互式四维分割,这是一种新范式,通过利用激光雷达数据的序列性质,同时实现多个扫描上多个目标的交互式分割。(2)我们介绍了Interactive4D,这是第一个能够在时空点云上准确分割“事物”和“背景”的交互式四维分割模型,同时随时间提供一致的实例ID,用于跟踪任务。(3)我们设计了一种新颖的点击模拟策略,更适合激光雷达数据的特性。(4)我们在多个激光雷达数据集上取得了显著领先的性能,并通过与人类标注者进行的用户研究证明了Interactive4D在实际标注案例中的有效性。

5. 方法

受基于注意力模型的交互式分割方法取得成功的启发,我们进行了关键性的技术改进,以充分发掘此类模型在LiDAR点云中的潜力,并引入了如图2所示的Interactive4D——我们的交互式4D分割模型。为便于理解,我们采用矩阵符号来呈现整个过程。

6. 实验结果

7. 总结 & 未来工作

我们提出了交互式4D分割,这是一种新用户交互范式,允许用户同时在多个扫描结果中分割多个对象,以及Interactive4D——首个遵循此范式的交互式4D分割方法。与以往仅限于单个对象和单次扫描的方法相比,Interactive4D的效率显著提高。结合我们为稀疏LiDAR扫描量身定制的新点击模拟策略,它在准确性方面也表现出色,并以大幅优势达到了最先进的性能水平。

我们希望Interactive4D能够减少未来LiDAR数据集所需的标注工作量。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊可提供顶会论文的课题如下:





Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1