ECCV'24开源 | 教你微调关键点描述子，实现SOTA特征匹配！

作者：3D视觉工坊发布时间：2024-09-20

来源：3D视觉工坊

添加小助理：CV3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 这篇文章干了啥？

图像匹配是众多计算机视觉应用中的关键组成部分，包括三维场景重建、立体成像和运动跟踪。

起初，该领域通过开发复杂的工程方法取得进展，这些方法量身定制，以实现能够处理图像尺度和旋转显著变化的稳健匹配，同时能够抵御光照变化和不同相机视角的影响。然而，这些手工设计的方法逐渐被深度学习技术所取代，后者为应对图像匹配中的许多其他复杂性提供了一个更加灵活和强大的框架。不幸的是，这些方法失去了许多手工方法所具备的稳健性。在本文中，我们旨在通过引入一种专门设计用于提高对仿射畸变稳健性的方法，来进一步提升基于深度学习的图像匹配性能。这种方法不仅利用了深度学习的优势，还重新审视并复兴了该领域早期研究中的一个基础概念：确保对仿射畸变的稳健性是实现跨广泛基线可靠图像匹配的关键。

我们的方法依赖于训练基于神经网络的关键点描述符，这些描述符在局部仿射变换下具有近似等变性。我们通过将steerers框架从SO(2)推广到GL(2)来训练这些网络。我们还发现，使用带有大量单应性增强的仿射steerers进行训练，在对直立图像进行微调之前作为预训练，效果良好。这种方法虽然在某种程度上牺牲了等变性，但在直立图像匹配的标准基准测试中取得了新的最优结果。特别是，我们在IMC22上将DeDoDe-B实现的72.9 mAA@10提高到77.3 mAA@10，使用的是我们的AffSteer-B模型。此外，通过使用我们的等变模型AffEqui-B，我们在旋转变体基准测试AIMS上也获得了有竞争力的结果。最后，我们分析了描述符的等变属性，并概述了未来研究的有前途的方向。

下面一起来阅读一下这项工作~

1. 论文信息

标题：Affine steerers for structured keypoint description

作者：Georg Bökman, Johan Edstedt, Michael Felsberg, Fredrik Kahl

机构：Chalmers University of Technology、Linköping University

原文链接：https://arxiv.org/abs/2408.14186

代码链接：http://github.com/georg-bn/affine-steerers

2. 摘要

我们提出了一种训练基于深度学习的关键点描述符的方法，使它们对于图像平面的局部仿射变换近似等变。主要思想是使用GL(2)的表示理论将最近引入的操纵器概念从旋转推广到仿射变换。仿射操纵器对关键点描述在图像变换下如何变换给予高度控制。我们展示了使用该控件进行图像匹配的潜力。最后，我们提出了一种在直立图像上使用一组操纵器微调关键点描述符的方法，并在几个标准基准上获得了最先进的结果。

3. 效果展示

图1展示了作者在拍摄的图像上的一个定性示例。

4. 主要贡献

综上所述，我们的主要贡献包括：

将steerers概念推广到可由仿射群局部近似的图像变换。

描述了如何为仿射群训练steerers。推荐课程：零基础入门ROS-SLAM小车仿真与实践[理论+仿真+实战]。

介绍了一种新的直立专用描述符训练程序，该程序首先使用仿射steerers进行预训练，然后通过最大相似性方法对直立图像进行微调。

在广泛的标准基准测试上评估我们的方法，并在基于检测器和描述符的方法中取得了最优结果。

对我们描述符的属性进行了批判性分析。

5. 基本原理是啥？

关键点匹配引导思想的概述。仿射引导器提供了一种修改描述符的方法，就像它们是从扭曲的图像中获得的一样，而无需在扭曲的图像上重新运行描述符网络。引导器是一个线性映射，因此计算量较轻。

总体流程如图2所示。我们将图像视为函数I: R2 → R3，将一般的特征图视为函数F: R2 → Rc。特征图是从特征提取器f中获得的，即我们将f(I)写为F。在这里，我们隐式地假设对于与图像I相关联的特征图F，位置x处的特征F(x)与图像内容I(x)在x处相关联。关键点描述的思想是，给定特征图F和关键点xi，我们通过在位置xi处评估F来获得关键点描述di。

数据生成流程的说明。给定场景的两个视图A和B，我们计算从一个视图到另一个视图的图像扭曲，并使用它来找到对应的关键点，并使用仿射变换M对A中的关键点进行标注，这些仿射变换M局部地近似了从A到B的图像扭曲。在上面的插图中，我们展示了通过单个图像的单应性变换获得的两个视图，这在预训练步骤中使用，但也可以通过拍摄同一位置的两张照片来获得这两个视图，就像我们在MegaDepth上进行训练时那样。A中的红色圆圈被扭曲成B中的椭圆，我们在图的右侧展示了针对一对关键点获得的仿射映射M。在实际应用中，我们使用DeDoDe关键点，但在这里我们使用A中的常规网格进行说明。

6. 实验结果

7. 总结 & 未来工作

我们提出了一种将转向器框架推广至局部仿射变换的方法。这催生出了仿射等变描述符AffEqui-B和AffEqui-G。这些描述符的效果低于目前的最优技术，但其在与局部仿射变换估计相结合方面表现出良好前景，我们通过使用oracle方法进行了探索。然后我们提出了一种针对直立图像的微调方法，从而产生了最新的描述符AffSteer-B和AffSteer-G。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉工坊提供35个顶会论文的课题如下：

1、基于环境信息的定位，重建与场景理解

2、轻是级高保真Gaussian Splatting

3、基于大模型与GS的 6D pose estimation

4、在挑战性遮挡环境下的GS-SLAM系统研究

5、基于零知识先验的实时语义地图构建SLAM系统

6、基于3DGS的实时语义地图构建

7、基于文字特征的城市环境SLAM

8、面向挑战性环境的SLAM系统研究

9、特殊激光传感器融合视觉的稠密SLAM系统

10、基于鲁棒描述子与特征匹配的特征点法SLAM

11、基于yolo-world的语义SL系统

12、基于自监督分割的挑战性环境高斯SLAM系统

13、面向动态场景的视觉SLAM系统研究

14、面向动态场景的GS-SLAM系统研究

15、集成物体级地图的GS-SLAM系统

16、挑战场景下2D-2D，2D-3D或3D-3D配准问题

17、未知物体同时重建与位姿估计问题类别级或开放词汇位姿估计问题

18、位姿估计中的域差距问题

19、可形变对象(软体)的实时三维重建与非刚性配准

20、机器人操作可形变对象建模与仿真

21、基于图像或点云3D目标检测、语义分割、轨迹预测.

22、医疗图像分割任务的模型结构设计

23、多帧融合的单目深度估计系统研究

24、复杂天气条件下的单目深度估计系统研究高精度的单目深度估计系统研究

25、基于大模型的单目深度估计系统研究

26、高精度的光流估计系统多传感器融合的单目深度估计系统研究

27、基于扩散模型的跨域鲁棒自动驾驶场景理解

28、水下图像复原/增强

30、Real-World图像去雾(无监督/物理驱动)

31、LDR图像/视频转HDR图像/视频

32、光场图像增强/复原/超分辨率

33、压缩后图像/视频的增强/复原

34、图像色彩增强(image retouching)

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群

添加小助理: CV3d001，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

— 完 —

近期资讯

一文轻松掌握Kotlin接口与类
接口 Kotlin接口定义依旧使用interface Java中的接口允许拥有默认实现,Kotlin中也是同样支持的现在让我们假设同样存在定义了一个say的实现Human,然后定义Man来实现这两个
Silently9527 2024-09-18

实时音视频之医疗手术示教技术方案探究
医疗手术示教是现代医学教育中不可或缺的一环，它通过将手术室内医生的手术过程以及手术室内的各种医疗设备的视频资料真实呈现给实习医生或观摩人员，以达到教学或学术交流的目的。
音视频牛哥 2024-09-18

Canvas简历编辑器-选中绘制与拖拽多选交互方案
在之前我们聊了聊Canvas与基本事件组合实现了轻量级DOM，并且在此基础上实现了如何进行管理事件以及多层级渲染的能力。那么此时我们就依然在轻量级DOM的基础上，关注于实现选中绘制与拖拽多选交互方案。
WindrunnerMax 2024-09-18

百度Android IM SDK组件能力建设及应用
实时、可靠、安全是对IM系统的基础要求，系统地收发消息机制提供了最小粒度的IM服务，实时通知、离线获取能够更好地保障IM功能完整性，实时、离线多端同步能力提升了同一账号多台设备的产品体验。
百度Geek说 2024-09-18

AVC编码规格之Baseline、Main、High profile区别
AVC编码规格Baseline、Main、High profile，这三者之间在功能、应用场景以及编码效率上存在着明显的区别。
音视频牛哥 2024-09-18

大牛直播SDK最经典的一句
搜索引擎搜大牛直播SDK，居然提示我搜“大牛直播SDK最经典的一句”，闲来无事，点开看看，AI智能问答，给出了答案： ‌大牛直播SDK最经典的一句是："我们只做最擅长的部分,我们不做的,提供对接接口
音视频牛哥 2024-09-18

新书出版🎉🎉🎉，大陆首本NestJS图书《NestJS全栈开发解析：快速上手与实践》
前言对，你没看错！这的确是NestJS图书在大陆的首发，图书诞生了历经10个月，属于时间杠杆的产物，终于与大家见面了~
元兮 2024-09-18

茶思屋直播|TinyEngine+AI：聚焦主航道，在实践中探索低代码技术黑土地
本期主题将从TinyEngine低代码引擎的架构适配能力出发，讲述TinyEngine在AI大模型环境下做出了哪些实践和探索，同时对业界低代码AI方案展开讨论，引发对低代码技术的思考。
OpenTiny社区 2024-09-18

浏览器的渲染过程，所有面试官想知道的
浏览的渲染过程简单来说就是：解析、构建渲染树、布局、绘制、复合，的过程。浏览器将 HTML 代码解析出来，把解析出来后的结果画到页面上，相当于就是，告诉浏览器，第一个像素点上应该呈现什么颜色，依次类推
木笙 2024-09-18

写给小白的Jetpack Compose之屏幕适配
本文讲解了在组件中如何使用CompositionLocalProvider来实现屏幕适配，然后还提到了Dialog/Popup内使用组件可能会遇到的异常，并给出解决方案。
苏灿烤鱼 2024-09-18

ECCV'24开源 | 教你微调关键点描述子，实现SOTA特征匹配！

推荐体验

近期资讯

一文轻松掌握Kotlin接口与类

实时音视频之医疗手术示教技术方案探究

Canvas简历编辑器-选中绘制与拖拽多选交互方案

百度Android IM SDK组件能力建设及应用

AVC编码规格之Baseline、Main、High profile区别

大牛直播SDK最经典的一句

新书出版🎉🎉🎉，大陆首本NestJS图书《NestJS全栈开发解析：快速上手与实践》

茶思屋直播|TinyEngine+AI：聚焦主航道，在实践中探索低代码技术黑土地

浏览器的渲染过程，所有面试官想知道的

写给小白的Jetpack Compose之屏幕适配

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响