来源:3D视觉工坊
添加小助理:CV3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0. 这篇文章干了啥?
图像匹配是众多计算机视觉应用中的关键组成部分,包括三维场景重建、立体成像和运动跟踪。
起初,该领域通过开发复杂的工程方法取得进展,这些方法量身定制,以实现能够处理图像尺度和旋转显著变化的稳健匹配,同时能够抵御光照变化和不同相机视角的影响。然而,这些手工设计的方法逐渐被深度学习技术所取代,后者为应对图像匹配中的许多其他复杂性提供了一个更加灵活和强大的框架。不幸的是,这些方法失去了许多手工方法所具备的稳健性。在本文中,我们旨在通过引入一种专门设计用于提高对仿射畸变稳健性的方法,来进一步提升基于深度学习的图像匹配性能。这种方法不仅利用了深度学习的优势,还重新审视并复兴了该领域早期研究中的一个基础概念:确保对仿射畸变的稳健性是实现跨广泛基线可靠图像匹配的关键。
我们的方法依赖于训练基于神经网络的关键点描述符,这些描述符在局部仿射变换下具有近似等变性。我们通过将steerers框架从SO(2)推广到GL(2)来训练这些网络。我们还发现,使用带有大量单应性增强的仿射steerers进行训练,在对直立图像进行微调之前作为预训练,效果良好。这种方法虽然在某种程度上牺牲了等变性,但在直立图像匹配的标准基准测试中取得了新的最优结果。特别是,我们在IMC22上将DeDoDe-B实现的72.9 mAA@10提高到77.3 mAA@10,使用的是我们的AffSteer-B模型。此外,通过使用我们的等变模型AffEqui-B,我们在旋转变体基准测试AIMS上也获得了有竞争力的结果。最后,我们分析了描述符的等变属性,并概述了未来研究的有前途的方向。
下面一起来阅读一下这项工作~
1. 论文信息
标题:Affine steerers for structured keypoint description
作者:Georg Bökman, Johan Edstedt, Michael Felsberg, Fredrik Kahl
机构:Chalmers University of Technology、Linköping University
原文链接:https://arxiv.org/abs/2408.14186
代码链接:http://github.com/georg-bn/affine-steerers
2. 摘要
我们提出了一种训练基于深度学习的关键点描述符的方法,使它们对于图像平面的局部仿射变换近似等变。主要思想是使用GL(2)的表示理论将最近引入的操纵器概念从旋转推广到仿射变换。仿射操纵器对关键点描述在图像变换下如何变换给予高度控制。我们展示了使用该控件进行图像匹配的潜力。最后,我们提出了一种在直立图像上使用一组操纵器微调关键点描述符的方法,并在几个标准基准上获得了最先进的结果。
3. 效果展示
图1展示了作者在拍摄的图像上的一个定性示例。
4. 主要贡献
综上所述,我们的主要贡献包括:
将steerers概念推广到可由仿射群局部近似的图像变换。
描述了如何为仿射群训练steerers。推荐课程:零基础入门ROS-SLAM小车仿真与实践[理论+仿真+实战]。
介绍了一种新的直立专用描述符训练程序,该程序首先使用仿射steerers进行预训练,然后通过最大相似性方法对直立图像进行微调。
在广泛的标准基准测试上评估我们的方法,并在基于检测器和描述符的方法中取得了最优结果。
对我们描述符的属性进行了批判性分析。
5. 基本原理是啥?
关键点匹配引导思想的概述。仿射引导器提供了一种修改描述符的方法,就像它们是从扭曲的图像中获得的一样,而无需在扭曲的图像上重新运行描述符网络。引导器是一个线性映射,因此计算量较轻。
总体流程如图2所示。我们将图像视为函数I: R2 → R3,将一般的特征图视为函数F: R2 → Rc。特征图是从特征提取器f中获得的,即我们将f(I)写为F。在这里,我们隐式地假设对于与图像I相关联的特征图F,位置x处的特征F(x)与图像内容I(x)在x处相关联。关键点描述的思想是,给定特征图F和关键点xi,我们通过在位置xi处评估F来获得关键点描述di。
数据生成流程的说明。给定场景的两个视图A和B,我们计算从一个视图到另一个视图的图像扭曲,并使用它来找到对应的关键点,并使用仿射变换M对A中的关键点进行标注,这些仿射变换M局部地近似了从A到B的图像扭曲。在上面的插图中,我们展示了通过单个图像的单应性变换获得的两个视图,这在预训练步骤中使用,但也可以通过拍摄同一位置的两张照片来获得这两个视图,就像我们在MegaDepth上进行训练时那样。A中的红色圆圈被扭曲成B中的椭圆,我们在图的右侧展示了针对一对关键点获得的仿射映射M。在实际应用中,我们使用DeDoDe关键点,但在这里我们使用A中的常规网格进行说明。
6. 实验结果
7. 总结 & 未来工作
我们提出了一种将转向器框架推广至局部仿射变换的方法。这催生出了仿射等变描述符AffEqui-B和AffEqui-G。这些描述符的效果低于目前的最优技术,但其在与局部仿射变换估计相结合方面表现出良好前景,我们通过使用oracle方法进行了探索。然后我们提出了一种针对直立图像的微调方法,从而产生了最新的描述符AffSteer-B和AffSteer-G。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉工坊提供35个顶会论文的课题如下:
1、基于环境信息的定位,重建与场景理解
2、轻是级高保真Gaussian Splatting
3、基于大模型与GS的 6D pose estimation
4、在挑战性遮挡环境下的GS-SLAM系统研究
5、基于零知识先验的实时语义地图构建SLAM系统
6、基于3DGS的实时语义地图构建
7、基于文字特征的城市环境SLAM
8、面向挑战性环境的SLAM系统研究
9、特殊激光传感器融合视觉的稠密SLAM系统
10、基于鲁棒描述子与特征匹配的特征点法SLAM
11、基于yolo-world的语义SL系统
12、基于自监督分割的挑战性环境高斯SLAM系统
13、面向动态场景的视觉SLAM系统研究
14、面向动态场景的GS-SLAM系统研究
15、集成物体级地图的GS-SLAM系统
16、挑战场景下2D-2D,2D-3D或3D-3D配准问题
17、未知物体同时重建与位姿估计问题类别级或开放词汇位姿估计问题
18、位姿估计中的域差距问题
19、可形变对象(软体)的实时三维重建与非刚性配准
20、机器人操作可形变对象建模与仿真
21、基于图像或点云3D目标检测、语义分割、轨迹预测.
22、医疗图像分割任务的模型结构设计
23、多帧融合的单目深度估计系统研究
24、复杂天气条件下的单目深度估计系统研究高精度的单目深度估计系统研究
25、基于大模型的单目深度估计系统研究
26、高精度的光流估计系统多传感器融合的单目深度估计系统研究
27、基于扩散模型的跨域鲁棒自动驾驶场景理解
28、水下图像复原/增强
30、Real-World图像去雾(无监督/物理驱动)
31、LDR图像/视频转HDR图像/视频
32、光场图像增强/复原/超分辨率
33、压缩后图像/视频的增强/复原
34、图像色彩增强(image retouching)
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:
工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:四旋翼建模、无人机飞控等
2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿:具身智能、大模型、Mamba、扩散模型等
除了这些,还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群
添加小助理: CV3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。
— 完 —