当前位置:首页|资讯

IROS'24开源 | 43 FPS!精度拉满!无人机实时跟踪最新SOTA!

作者:3D视觉工坊发布时间:2024-10-11

0. 论文信息

标题:Progressive Representation Learning for Real-Time UAV Tracking

作者:Changhong Fu, Xiang Lei, Haobo Zuo, Liangliang Yao, Guangze Zheng, Jia Pan

机构:同济大学、香港大学

原文链接:https://arxiv.org/abs/2409.16652

代码链接:https://github.com/vision4robotics/PRL-Track

1. 导读

视觉目标跟踪极大地促进了无人飞行器的自主应用。然而,在复杂的动态环境中,当面对纵横比变化和遮挡时,学习用于UAV跟踪的鲁棒对象表示尤其具有挑战性。这些挑战严重改变了对象的原始信息。为了解决上述问题,本文提出了一种新的用于无人机跟踪的渐进表示学习框架,即PRL-Track。具体来说,PRL-Track分为粗表示学习和细表示学习。对于粗表示学习,两个创新的调节器依赖于外观和语义信息,旨在减轻外观干扰和捕捉语义信息。此外,对于精细表示学习,开发了一种新的分层建模生成器来缠绕粗糙对象表示。详尽的实验表明,提出的PRL-Track在三个权威的无人机跟踪基准上提供了优异的性能。真实世界的测试表明,所提出的PRL-Track在配备了edge智能摄像机的典型无人机平台上实现了每秒42.6帧的卓越跟踪性能。

2. 引言

稳健的视觉目标跟踪对于智能无人机(UAV)应用至关重要,例如任务规划、生物多样性保护和目标定位。在上述广泛应用中,无人机跟踪器旨在从第一帧中的初始位置开始,预测后续帧中目标的位置。在大量带有手工标注的数据集的驱动下,采用卷积神经网络(CNN)学习目标表征的孪生网络跟踪器展现出了令人瞩目的性能。然而,当遇到复杂的动态环境时,如长宽比变化和遮挡,这些跟踪器由于像AlexNet这样的轻量级CNN的表征能力有限,难以获得稳健的目标表征。尽管具有更深主干网络(如ResNet)的跟踪器能更好地学习目标表征,但由于无人机上计算资源有限,它们无法满足实时性要求。因此,在复杂的动态环境中,用于无人机跟踪的稳健目标表征远远不够。

一个有前途的方法是探索面向无人机跟踪任务的多尺度特征。具体来说,采用卷积操作从不同层聚合多尺度特征,这有助于缓解无人机跟踪过程中因遮挡而导致的特征退化。然而,由于卷积核的感受野有限,CNN缺乏长距离依赖性的建模能力。因此,捕获多尺度特征之间的全局上下文信息具有挑战性。最近,视觉Transformer(ViT)凭借其注意力机制在建模长距离依赖性方面展现出了巨大潜力。将ViT引入孪生跟踪器,解决了传统基于CNN的跟踪器在学习全局信息方面的不足。此外,ViT固有的全局建模能力在应对外观变化(如长宽比变化)方面证明是有利的。然而,与CNN相比,ViT往往忽略局部空间信息,这降低了图像目标的判别性。此外,注意力机制的二次计算复杂度和内存成本是在具有有限计算资源的无人机嵌入式处理器上广泛部署的障碍。因此,如何提取更可靠的信息,然后为无人机跟踪生成稳健的目标表征,值得仔细研究。

为了充分利用全局上下文信息和局部空间信息,将CNN和ViT结合起来代表了一种有前景的互补耦合。鉴于CNN在快速收敛和过滤冗余信息方面的优势,它们非常适合从图像中提取目标局部信息,以形成粗略的目标表征。随后,ViT利用粗略的目标表征来细化和增强对全局上下文信息的理解,从而生成稳健的精细目标表征。然而,考虑到普通CNN和ViT在特征空间上的差异,直接将它们拼接会导致性能下降。因此,如何有效整合CNN和ViT以实现实时无人机跟踪是一个值得探索的问题。

本文提出了一种新的渐进式表征学习框架,即PRL-Track,该框架包括基于CNN的粗表征学习和基于ViT的细表征学习。利用CNN和ViT的互补优势,PRL-Track能够学习稳健的精细目标表征,在无人机跟踪过程中遇到遮挡和长宽比变化等挑战时,仍能实现令人满意的性能。

3. 效果展示

图1突出了PRL-Track在无人机跟踪中的卓越性能,在平均精度和成功率方面优于其他14种最先进的(SOTA)跟踪器。

4. 主要贡献

本文的主要贡献如下:

• 提出了一种新的渐进式表征学习框架PRL-Track,通过粗细结合的视角为无人机跟踪学习稳健的精细目标表征,从而提高跟踪性能。

• 开发了一种创新的外观感知调节器,以减轻外观干扰,并从浅层特征中提取有用信息进行粗表征学习。此外,设计了一个方便的语义感知调节器,以捕获语义信息并促进深层特征的集中。

• 提出了一种新的层次建模生成器,通过融合粗目标表征来增强对上下文信息的理解,以进行细表征学习,进一步为无人机跟踪生成稳健的精细目标表征。

• 综合评估证实,PRL-Track实现了SOTA性能,验证了所提框架的有效性。在典型无人机平台上进行的实际测试证明了PRL-Track在实际场景中的卓越效率和鲁棒性。

5. 方法

如图2所示,所提出的PRL-Track分为粗表征学习和细表征学习。粗表征学习生成粗目标表征,获取目标的局部空间信息。在此基础上,细表征学习为无人机跟踪生成稳健的精细目标表征。通过粗细结合的渐进视角,所提框架确保了在复杂动态环境(如遮挡和长宽比变化)下的跟踪性能。推荐课程:零基础入门四旋翼建模与控制(MATLAB仿真)[理论+实战]。

6. 实验结果

在本节中,PRL-Track在其他14种现有的最优跟踪器(包括LPAT、SGDViT、HiFT、SiamAPN++、SiamFC[18]、DeepSTRCF、Ocean、DaSiamRPN、SESiamFC、MCCT、AutoTrack、TADT、UDT+和UDT)的对比下,在三个具有挑战性且权威的无人机跟踪基准数据集上进行了测试。值得注意的是,所有孪生网络跟踪器都使用了相同的轻量级主干网络,即AlexNet,以确保公平比较。

UAVTrack112:UAVTrack112是专门为无人机跟踪构建的数据集,包含112个序列,这些序列为现实世界评估引入了挑战。它涵盖了无人机跟踪中遇到的常见挑战,包括纵横比变化、相似物体、部分遮挡等。图5中的结果表明,PRL-Track表现出色,精度达到0.786,成功率达到0.602。

UAVTrack112 L:UAVTrack112 L包含45个长期跟踪序列,总计超过60,000帧。图5显示,与其他最优跟踪器相比,PRL-Track表现出最佳性能。在精度方面,PRL-Track以0.803的显著分数领先,超过了第二名的LPAT(0.760)和第三名的SGDViT(0.743)。同样,PRL-Track的成功率也最高,为0.597,优于LPAT(0.566)和SGDViT(0.554)。

备注5:在本文中,UAVTrack112 L被用于验证所提出的PRL-Track的长期跟踪性能。实验结果表明,PRL-Track在长序列上表现尤为出色,提供了更稳定、更持续的跟踪能力。

UAV123:UAV123包含123个具有挑战性的序列,总计超过112,000帧。这些序列涉及复杂的空中场景,包括遮挡、光照变化和低分辨率挑战。在UAV123上的性能评估为空中视觉跟踪的进步提供了有价值的见解。如图5所示,PRL-Track以0.791的成功率和0.593的精度脱颖而出。

通过基于属性的比较,评估了PRL-Track在处理复杂的无人机跟踪挑战时的鲁棒性。具体而言,在评估过程中考虑了纵横比变化(ARC)、部分遮挡(POC)、尺度变化(SV)和视角变化(VC)等属性。如表I所示,与其他5种最优跟踪器相比,PRL-Track在所有四个属性上都表现出最佳性能。值得注意的是,PRL-Track在ARC方面的表现尤为突出,精度比第二名高出4.5%,成功率提高了4.1%。这一显著改进表明,所提出的PRL-Track能够利用多尺度特征的全局联系,从而更好地适应跟踪对象尺度变化的场景。此外,当遇到部分遮挡时,基于ViT的HMG利用纯化的对象表示进行全局建模,从而减轻了遮挡导致的对象特征退化影响。而且,在遇到尺度变化时,从粗到细的渐进探索过程可以生成更具辨别力的对象表示,以保持可靠的跟踪。

备注6:这些令人鼓舞的结果表明,所提出的PRL-Track能够学习鲁棒的对象表示,以应对上述挑战场景。此外,这些鲁棒的对象表示还有助于提高长期跟踪的有效性。

如表II所示,将FLP直接集成到基线中显著提高了其性能,精度提高了约10.09%,成功率提高了13.16%。这归功于层次建模生成器,它促进了跨不同尺度特征的集成。然而,将SR和FLP相结合可能会导致性能下降,因为浅层特征会带来外观干扰。另一方面,将AR和FLP相结合可将跟踪精度提高13.11%。此外,采用Baseline+AR+SR+FLP配置可获得最佳性能,与基线相比,精度提高了15.71%,成功率提高了17.29%。上述所有结果都验证了粗表示学习(AR+SR)和FLP在改善无人机跟踪中的对象表示探索方面的有效性。

7. 总结 & 未来工作

在本文中,我们提出了一种新颖的渐进式表征学习框架,即PRL-Track,用于提取无人机跟踪中的稳健目标表征。在提出的PRL-Track框架中,我们使用了两个基于卷积神经网络(CNN)的调节器来创建目标的粗略表征。此外,还采用了基于视觉Transformer(ViT)的层次建模生成器来利用这些粗略的目标表征。这一渐进式学习过程使跟踪器(即PRL-Track)能够生成稳健的目标表征,从而更有效地应对复杂无人机场景中的挑战。大量实验,包括具有挑战性的真实世界测试,均表明PRL-Track取得了卓越的性能。我们相信,我们的框架能够推动无人机跟踪领域的进一步研究,并促进相关实际应用的发展。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊可提供顶会论文的课题如下:





Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1