当前位置:首页|资讯

国防科大开源FE-TAP:第一个针对任意点设计的数据驱动跟踪器

作者:3D视觉工坊发布时间:2024-09-20

来源:3D视觉工坊

添加小助理:CV3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:Tracking Any Point with Frame-Event Fusion Network at High Frame Rate

作者:Jiaxiong Liu, Bo Wang, Zhen Tan, Jinpu Zhang, Hui Shen, Dewen Hu

机构:国防科技大学

原文链接:https://arxiv.org/abs/2409.11953

代码链接:https://github.com/ljx1002/FE-TAP

1. 引言

建立点对应关系是一项基础性的视觉任务,并已在包括自动驾驶和同时定位与地图构建(SLAM)在内的多个领域得到了广泛应用。尽管近年来基于传统相机的点跟踪器在性能上取得了显著进步,但由于硬件固有的限制,它们在极端场景(如高速运动和低光条件)下的准确性仍然有限。受人类视网膜原理启发的事件相机可以克服这些限制。通过独立感知每个像素亮度的对数变化,事件相机以微秒级的时间分辨率输出事件流,具有高动态范围和低功耗等优势。目前,基于事件的点跟踪器已在高速和高动态范围(HDR)场景中表现出色。大多数基于事件的跟踪器都是建立在经典模型之上,这些模型受到事件数据质量的显著影响。随着事件噪声的增加,跟踪性能迅速下降。数据驱动方法提出了首个基于神经网络的点跟踪器,显著提高了跟踪性能,且无需针对不同场景进行参数调整。然而,由于事件数据中缺乏强度和详细的纹理信息,在复杂环境中实现鲁棒跟踪仍然是一个重大挑战。因此,我们旨在将低频但纹理丰富的图像帧与高频事件数据融合,以实现在各种运动场景中对任意点的跟踪。为实现这一目标,需要解决两个挑战:(i)聚合事件的测量速率远高于图像帧的测量速率。直接将低频图像与高频事件融合可能导致空间错位,对下游任务产生负面影响。尽管在特征点检测、线段检测和对象跟踪等领域已经提出了结合图像和事件的方法,但这些方法的输出帧率要么受图像帧率的限制,要么依赖于复杂的时间对齐策略。(ii)有效利用两种模态来实现不同运动场景下的任意点跟踪是另一个挑战。据我们所知,目前尚未有工作利用图像和事件来实现任意点跟踪。

为了解决这些不足,我们提出了首个数据驱动的跟踪器(FE-TAP),该跟踪器融合了图像帧和事件数据来跟踪任意点。具体而言,我们首先提出了一个进化融合模块(EvoFusion),用于融合具有不同帧率的事件和图像帧。与以往依赖时间对齐模块的方法不同,时间对齐模块由于需要准确的相机运动和深度信息而难以建模,往往导致较大误差,而EvoFusion则提供了一个新的视角。我们的模块通过利用精心设计的卷积网络来学习事件影响下图像的逐渐演变,从而将图像与所有后续事件融合。此过程生成了最新的类似图像的信息,有效利用了两种模态的优势。当输入图像模糊时,我们的模块可以依赖事件信息来恢复图像特征,从而生成鲁棒的融合特征。

然后,我们引入了一个基于Transformer的模块来捕获目标点在轨迹优化过程中的时空关系。该模型以滑动窗口的方式在令牌的二维表示上运行。Transformer使用注意力机制来考虑窗口内每条轨迹的整体情况,并在轨迹之间交换信息,从而生成更平滑的轨迹。为了更好地适应图像-事件融合跟踪任务,我们还对每个融合特征的事件累积时间进行了编码,并将其并入令牌中。此外,通过在滑动窗口内优化轨迹,我们的算法天生就具有一定的遮挡鲁棒性。在EC数据集上,我们的跟踪器比现有方法高出5%,在EDS数据集上高出24%。

2. 摘要

基于图像帧跟踪任何点都受到帧速率的限制,导致高速情况下的不稳定性和现实应用中的有限通用性。为了克服这些限制,我们提出了一种图像-事件融合点跟踪器FE-TAP,它将来自图像帧的上下文信息与事件的高时间分辨率相结合,在各种挑战性条件下实现高帧率和鲁棒的点跟踪。具体来说,我们设计了一个进化融合模块(EvoFusion)来模拟事件引导的图像生成过程。该模块可以有效地整合来自以不同频率工作的两种模态的有价值的信息。为了实现更平滑的点轨迹,我们采用了一种基于变压器的优化策略,迭代地更新点的轨迹和特征。大量实验表明,我们的方法优于最先进的方法,特别是提高了预期特征年龄24%在EDS数据集上。最后,我们使用我们定制的高分辨率图像-事件同步设备定性地验证了我们的算法在真实驾驶场景中的鲁棒性。

3. 效果展示

高速运动场景下的跟踪性能比较:我们的方法(右上角),集成了图像和事件数据,与仅依赖第一帧图像和事件数据的数据驱动方法(左上角)相比。

4. 主要贡献

主要贡献如下:

• 我们提出了首个融合图像帧和事件数据以跟踪任意点的数据驱动跟踪器。

• 我们设计了一个进化融合模块,用于结合不同频率的帧和事件,使跟踪器在极端场景下表现稳定。

• 我们引入了一个基于Transformer的模块,用于捕获目标点之间的时空关系,以在滑动窗口内优化其轨迹。推荐课程:面向三维视觉的Linux嵌入式系统教程[理论+代码+实战]。

• 我们在公共数据集上验证了该方法的优越性能,并通过我们定制的高分辨率图像-事件同步设备捕获的真实驾驶数据进一步证实了这一点。

5. 方法

我们网络的整体架构如图2所示。首先,我们使用进化融合模块(EvoFusion)来融合图像帧和事件表示,以生成高频融合特征图Ffus。接下来,基于融合特征图和查询点位置Pinit(代表所有待跟踪目标点随时间变化的初始位置),计算查询内容特征finit和相关体积Cw。利用Transformer强大的上下文理解和高效的并行处理能力,以滑动窗口的方式迭代优化点轨迹,从而实现鲁棒的长时点跟踪。值得注意的是,由于采用了滑动窗口轨迹优化,我们的模块在不显式考虑遮挡的情况下,也表现出了一定的遮挡鲁棒性。整个过程以高时间分辨率运行,不受帧率的限制。

6. 实验结果

7. 总结 & 未来工作

在本文中,我们提出了FE-TAP,这是第一个为任意点设计的数据驱动跟踪器,它集成了图像帧和事件。我们从新的角度设计了EvoFusion模块,以高帧率融合图像和事件,从而避免了以往方法中复杂且易出错的图像和事件对齐过程。然后,我们提出了迭代优化模块,该模块将融合信息编码为令牌,以优化并生成更平滑、更准确的轨迹。此外,我们的跟踪器在两个公共数据集上的表现优于最先进的方法,并且我们使用自定义的图像-事件同步设备验证了FE-TAP在真实驾驶场景中的性能。未来的工作将重点放在提高我们模型的实时性能上。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿:具身智能、大模型、Mamba、扩散模型等

除了这些,还有求职硬件选型视觉产品落地、产品、行业新闻等交流群

添加小助理: CV3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1