Meta&牛津重磅开源CoTracker3：更简单、更好的跟踪一切！

作者：3D视觉工坊发布时间：2024-10-18

0. 论文信息

标题：CoTracker3: Simpler and Better Point Tracking by Pseudo-Labelling Real Videos

作者：Nikita Karaev, Iurii Makarov, Jianyuan Wang, Natalia Neverova, Andrea Vedaldi, Christian Rupprecht

机构：Meta AI、Visual Geometry Group, University of Oxford

原文链接：https://arxiv.org/abs/2410.11831

代码链接：https://github.com/facebookresearch/co-tracker

官方主页：https://cotracker3.github.io/

1. 导读

大多数先进的点跟踪器都是在合成数据上训练的，因为为这项任务标注真实视频很困难。然而，由于合成视频和真实视频之间的统计差距，这可能导致次优性能。为了更好地理解这些问题，我们引入了CoTracker，它包括一个新的跟踪模型和一个新的半监督训练方法。

这使得通过使用现成的教师生成伪标签，可以在训练期间使用没有注释的真实视频。新型号消除或简化了以前追踪器的组件，导致更简单且通常更小的架构。该训练方案比先前的工作简单得多，并且使用少1000倍的数据获得了更好的结果。

我们进一步研究缩放行为，以了解在点跟踪中使用更多真实的无监督数据的影响。该模型有在线和离线版本，能够可靠地跟踪可见点和遮挡点。我们展示了质量上令人印象深刻的跟踪结果，其中即使当点被遮挡或离开视野时，也可以跟踪点很长时间。从数量上来说，CoTracker在标准基准上的表现优于所有最近的追踪者，通常是大幅领先。

2. 引言

点跟踪是视频分析中的一个关键步骤，特别是对于需要精确恢复对应关系的任务，如3D重建和视频编辑。近年来，点跟踪器取得了显著发展，其设计灵感来自基于变换器（transformer）的神经网络，如位置敏感点（PIPs）。值得注意的例子包括TAP-Vid，它为点跟踪引入了一个新的基准；以及TAPIR，引入了一个改进的跟踪器，通过添加全局匹配阶段扩展了PIPs的设计。CoTracker提出了一种变换器架构，可以联合跟踪多个点，从而进一步提高了跟踪质量，特别是对于视频中部分被遮挡的点。

在本文中，我们提出了一种新的点跟踪模型CoTracker3，它基于近期跟踪器的思想，但显著更简单、数据效率更高且更灵活。我们的架构特别是去除了一些近期跟踪器为获得良好性能而提出的必要组件，同时仍然超越了当前最优技术水平。我们首次研究了点跟踪器的数据缩放行为，并展示了不同模型架构和训练协议在最终跟踪质量和数据效率方面的优势。

近期跟踪器之所以表现出色，是因为高容量神经网络能够从大量训练视频中学习到鲁棒的先验知识，并利用这些先验知识来处理复杂且模糊的跟踪情况，如遮挡和快速运动。因此，获得高质量的训练数据对于获得可靠的跟踪结果至关重要。

原则上，可用于训练点跟踪器的视频并不短缺，但很难手动为它们标注点轨迹。幸运的是，人们发现可以自动标注的合成视频对于像点跟踪这样的低级任务而言，是真实数据的一个很好的替代品。然而，大规模收集多样化的合成视频成本高昂，且仿真到真实的差距也不容忽视。因此，使用真实视频来训练点跟踪器仍然是一个有吸引力的选择。

因此，近期的研究工作探索了利用大量真实但未标注的视频来训练点跟踪器。特别是，BootsTAPIR通过在1500万个未标注的视频上训练模型，在TAP-Vid基准上实现了当前最优的准确度。尽管已经证明了使用更多训练数据的好处，但点跟踪器的数据缩放行为尚不清楚。特别是，尚不清楚BootsTAPIR中使用的数百万个真实训练视频对于训练一个好的跟踪器是否必要。同样，他们相对复杂的半监督训练方案的好处也不清楚。

另一个在很大程度上尚未探索的方面是不同跟踪器的竞争设计。像PIPs、TAPIR和CoTracker这样的变换器架构，以及更近期的贡献如LocoTrack，都提出了重要的改变、扩展、新组件和不同的设计决策。尽管这些在各自论文中被证明是有帮助的，但尚不清楚它们是否都是必需的，或者这些设计是否可以简化和更高效。

CoTracker3有助于回答这些问题。我们的模型基于比BootsTAPIR和LocoTrack等近期跟踪器更简单的架构和训练协议。它在TAP-Vid和Dynamic Replica基准上显著超越了BootsTAPIR，同时使用的未标注视频数量少了三个数量级，训练协议也更简单。我们还研究了该模型在越来越多真实训练视频下的数据缩放行为。LocoTrack在数据缩放方面与CoTracker3有类似的受益，但不能很好地跟踪被遮挡的点。

CoTracker3借鉴了先前模型的一些元素，包括来自PIPs的迭代更新和卷积特征、用于联合跟踪的跨轨迹注意力、用于提高效率的虚拟轨迹、以及来自CoTracker的用于窗口化操作的展开训练，以及来自LocoTrack的4D相关性。同时，它显著简化了其中的一些组件并去除了其他组件，如BootsTAPIR和LocoTrack的全局匹配阶段。这有助于确定哪些组件对于一个好的跟踪器来说真正重要。CoTracker3的架构也很灵活，如果以相同的方式训练，它既可以离线（即单窗口）运行，也可以在线（即滑动窗口）运行。

3. 效果展示

我们跟踪在第一帧上采样的点。只有CoTracker和CoTracker3可以通过遮挡进行跟踪。但是，CoTracker最终会丢失跟踪的点，而CoTracker3仍在跟踪它们。

我们跟踪从初始视频帧开始在规则网格上采样的10k个点。由于这些点是网格采样的，没有显著变换的轨迹应该在未来的帧中保持网格模式。LocoTrack和CoTracker3轨道比BootsTAPIR轨道更容易对齐。无论是LocoTrack还是BootsTAPIR都无法通过遮挡进行跟踪。它们也比CoTracker3丢失更多的背景和对象点。

使用无监督视频进行点跟踪器的缩放。左图：我们比较了我们的CoTracker3、LocoTrack、CoTracker、BootsTAPIR和TAPIR。每个模型首先在合成数据（来自Kubric）上进行预训练，然后使用我们提出的新颖且简单的无监督训练协议在真实视频上进行微调。我们的新模型和训练协议仅需使用0.1%的训练数据，就大幅超越了当前最优技术水平（SoTA）。右图：新模型对于遮挡情况特别鲁棒。推荐课程：国内首个基于面结构光的高反射物体重建方法课程（相位偏折术）。

4. 方法

架构。我们为给定视频的每一帧计算卷积特征，然后计算查询点对应查询帧周围采样特征与所有其他帧之间的相关性。然后，我们使用变换器迭代更新轨迹P(m) = P(m) +ΔP(m+1)、置信度C(m)和可见性V(m)，该变换器将先前的估计P(m)、C(m)、V(m)作为输入。

5 实验结果

6. 总结 & 未来工作

我们介绍了CoTracker3，这是一种新型点跟踪器，在TAP-Vid基准测试以及其他基准测试中均超越了当前的最先进技术。CoTracker3的架构融合了近期跟踪器中的多个优秀理念，但去除了不必要的组件，并显著简化了其他组件。CoTracker3还展示了简单半监督训练协议的强大功能，该协议利用多个现成的跟踪器对真实视频进行标注，然后利用这些标注数据微调一个性能超越所有教师模型的模型。通过该协议，CoTracker3的性能可以超越那些使用1000倍更多视频进行训练的跟踪器。通过联合跟踪点，CoTracker3在处理遮挡方面的表现优于任何其他模型，尤其是在离线模式下运行时。我们的模型可以用作构建块，服务于需要运动估计的任务，如3D跟踪、可控视频生成或动态3D重建。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

Meta&牛津重磅开源CoTracker3：更简单、更好的跟踪一切！

推荐体验

相关资讯

Meta「分割一切」进化2.0！一键跟踪运动物体，代码权重数据集全开源，网友：真正的OpenAI

OpenAI：颠覆一切，也被一切颠覆

Stable Diffusion 3突然发布！与Sora同架构，一切都更逼真了

担心错过AI风口？德银重磅报告：一切才刚开始

ChatGPT之父回应一切

近期资讯

普通小学生也能理解的Paxos算法讲解

我开发的一些开发者小工具

TCP Analysis Flags 之 TCP Window Update

《使用Gin框架构建分布式应用》阅读笔记：p52-p76

血站40多加公司，成功上岸

JavaScript 面试宝典：2024 年必备知识点

Vue3+NestJS实现权限管理系统(六):接口按钮权限控制

关于Spring的两三事：夭寿了，官方给出的依赖注入方式只有两种？！

让 SQLite 在浏览器中跑起来：用 WebAssem)bly 实现跨平台的数据库操作

微信团队发布全新多模态大模型 POINTS: 简单高效又不失性能

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响