ECCV'24 | 打破水下6D姿态估计的瓶颈！清华大学FAFA最新框架！

作者：3D视觉工坊发布时间：2024-09-29

0.这篇文章干了啥？

这篇文章提出了FAFA框架，旨在通过自监督学习实现水下物体姿态估计，利用未标注的真实图像进行训练。文章介绍了一种基于快速傅里叶变换（FFT）的数据增强策略，以将目标领域的风格引入合成数据，并促进网络学习领域不变的特征。此外，作者在自监督网络中使用形状约束的光流和多种图像级与特征级的对齐方法，以增强网络在复杂水下环境中的鲁棒性，最终实现更准确的姿态估计。通过在两个不同风格的水下无人水下车辆（UUV）数据集上的实验，FAFA框架展现了比现有最先进方法更优越的性能。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目：FAFA: Frequency-Aware Flow-Aided Self-Supervision for Underwater Object Pose Estimation

作者：Jingyi Tang, Gu Wang等

作者机构：Tsinghua University等

论文链接：https://arxiv.org/pdf/2409.16600

2. 摘要

尽管室内场景中物体姿态估计的方法取得了巨大成功，但由于复杂的水下环境带来的挑战（如光照不足、模糊以及获得真实标注的高成本），水下物体的姿态估计仍然具有很大难度。为此，我们提出了FAFA，一个基于频率感知的流辅助自监督框架，用于无人水下航行器（UUV）的6D姿态估计。基本上，我们首先在合成数据上训练一个基于频率感知的流姿态估计器，并提出了一种基于FFT的增强方法，以帮助网络从频率的角度捕捉领域不变特征和目标领域样式。此外，我们通过强制实施流辅助的多级一致性进行自监督训练，以适应现实世界的水下环境。我们的框架仅依赖于3D模型和RGB图像，减轻了对真实姿态标注或深度等其他模态数据的需求。我们在常见的水下物体姿态基准上评估了FAFA的有效性，并展示了相较于现有先进方法的显著性能提升。代码可在 http://github.com/tjy0703/FAFA 获取。

3. 效果展示

（a）ROV 6D和（B）DeepURL的定性结果。结果分别是使用自我监督之前（上图）和之后（下图）的结果。绿色和红色线框表示地面实况姿势和结果。

4. 主要贡献

我们提出了一种两阶段自监督框架，用于水下基于RGB的6D姿态估计，能够有效利用未标记的水下图像进行端到端的领域适应。
我们引入了一种频率感知增强策略，以提高整体姿态准确性以及网络对不同水下领域的适应性。
我们提出建立多级流辅助一致性，涵盖图像级和特征级对齐，从而增强自监督的有效性。

5. 基本原理是啥？

自监督学习：FAFA旨在从未标注的真实世界图像中学习物体的姿态估计信息。这种学习方式不依赖于人工标注数据，而是利用网络自身的学习能力，从大量数据中提取有用特征。
基于FFT的数据增强：该框架提出了一种基于快速傅里叶变换（FFT）的方法，用于在预训练阶段将目标领域的风格引入合成数据。通过这种方式，合成数据能够更好地模拟真实环境中的变化，促进网络学习领域不变特征，使其在不同风格的数据上具有更好的适应能力。推荐课程：单目深度估计方法：算法梳理与代码实现。
光流约束：在自监督网络中，FAFA采用形状约束的光流方法，利用光流信息来保持物体形状的一致性，这有助于提高网络对复杂水下环境的鲁棒性。
图像级和特征级对齐：框架中提出了多种图像级和特征级的对齐技术，这些技术能够增强网络在不同输入图像之间的一致性，从而改善姿态估计的准确性。
性能评估：FAFA在多个水下无人水面艇（UUV）数据集上进行评估，显示出比现有最先进方法更优越的性能。

6. 实验结果

性能评估指标：

使用ADD-S（Average Distance of Correctly Aligned Shapes）和5°/5 cm（即物体姿态估计的角度和位移误差）的指标来评估模型的准确性。

在ROV6D数据集上的表现：

在未标注的真实数据上进行自监督训练，FAFA框架在ADD-S和5°/5 cm指标上均显著超越了传统的流基方法（如SCFlow）和基于密集对应关系的方法（如CDPN和GDRN）。
自监督训练的结果与使用预训练模型的结果相近，表明其在处理遮挡和复杂水下环境时表现出的良好鲁棒性。

在DeepURL数据集上的表现：

FAFA框架在不同测试条件下的ADD 0.1d指标显示出较高的准确性，特别是在与PFC方法的比较中，FAFA在5°和5 cm指标上均有显著提升。
这些结果进一步证明了自监督学习对提升模型性能的有效性。

对比实验：

与现有最先进方法相比，FAFA框架在多项指标上都显示出优越的性能，证明其有效应对了复杂水下环境的挑战。
实验结果表明，该框架能够从未标注的数据中学习到丰富的特征，从而在水下物体姿态估计中实现更高的准确性和鲁棒性。

7. 总结 & 未来工作

我们提出了FAFA，一个自监督的水下物体姿态估计框架，旨在从未标注的真实世界图像中学习信息。实质上，我们提出了一种基于FFT的数据增强策略，在预训练阶段将目标领域的风格引入合成数据，并促进网络学习领域不变特征。此外，在我们的自监督网络中，我们利用形状约束的光流，并提出了多种图像级和特征级对齐方法，以提高网络在复杂水下环境中的鲁棒性，从而实现更准确的姿态估计。我们的方法在两个具有不同风格的水下无人水面艇数据集上进行了评估，显示出优于先前最先进方法的性能。

ECCV'24 | 打破水下6D姿态估计的瓶颈！清华大学FAFA最新框架！

推荐体验

近期资讯

微软被曝拓展 Copilot AI 应用，打造专属于你的新闻主播

三星预言 2025 年将掀起 AI 普及浪潮，重塑消费者日常生活方式

惠普星 Book Ultra 14 英寸翻转本开售：Ultra 7 258V，11999 元

英特尔 20 核 Arc Battlemage 曝光：2.85GHz、12GB 显存

联想发布“异构智算白皮书”，共筑算力生态新高度

三星 W25 心系天下折叠手机曝料：不支持 S Pen 手写笔

不会被三折叠取代！华为Mate X6折叠屏手机在加单：11月左右发布

全球最大混合动力矿卡在中联重科下线

雷神推出 KT78 有线磁轴键盘：定制磁墨轴，299 元

荣耀 MagicBook Art 14 骁龙版上架：骁龙 X Elite，8699 元

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响