ECCV'24开源 | 兼具精确性与鲁棒性！轻松估计相机的内参和外参！

作者：3D视觉工坊发布时间：2024-09-25

0. 论文信息

标题：GeoCalib: Learning Single-image Calibration with Geometric Optimization

作者：Alexander Veicht, Paul-Edouard Sarlin, Philipp Lindenberger, Marc Pollefeys

机构：ETH Zurich、Microsoft Mixed Reality & AI Lab

原文链接：https://arxiv.org/abs/2409.06704

代码链接：https://github.com/cvg/GeoCalib

1. 引言

相机标定包括估计相机的内参和外参。这些信息对于大多数基于图像的3D应用都是必需的，包括测量学、3D重建和新视图合成。该问题已被广泛研究，并且有许多基于3D几何的工具可供使用。由于图像形成过程已被充分理解，这些工具可以在受控的实验室条件下，从拍摄的图像中非常准确地标定相机。此外，标定也可以在不受控的条件下进行，这通常需要额外的传感器或观察同一场景的多幅图像，利用运动恢复结构（SFM）或同时定位与地图构建（SLAM）等技术。

在某些应用中，可能无法获得同一场景的多幅图像，例如在图像编辑中，或者由于视图间视觉重叠有限，多视图约束不足以准确估计相机参数。这种情况在处理野生、众包图像时经常发生，其中每幅图像都由不同的相机拍摄。然而，单个图像中可见的视觉线索可以帮助估计一些相机参数，如重力方向、焦距或畸变系数，而无需多视图线索。

这样的几何线索示例包括直线、曲线和消失点。从它们中估计相机参数已被广泛研究。由于我们有很好的投影几何模型，这些方法非常准确。然而，它们仅限于可见直线的人造环境，当不满足这一条件时，它们会彻底失败。这种低鲁棒性显著阻碍了它们的广泛应用。

在本工作中，我们介绍了GeoCalib，这是一个深度神经网络（DNN），它通过优化过程利用我们对投影几何的了解。由于这种优化是可微的，GeoCalib可以端到端地学习在给定单幅图像的情况下估计垂直方向和相机内参。因此，我们的方法可以在没有显式监督的情况下学习正确的视觉线索，但不需要学习估计相机参数的过程，这通过3D几何知识可以更好地实现。这提高了对不同环境的泛化能力，同时可忽略不计的额外开销对于实际应用至关重要。在各种基准测试上的实验表明，GeoCalib比现有的经典和学习方法更加鲁棒和准确。

2. 摘要

从单个图像，视觉线索可以帮助推断内在和外在的相机参数，如焦距和重力方向。这种单图像校准有利于图像编辑和3D绘图等各种下游应用。目前解决这一问题的方法要么基于具有线和消失点的经典几何，要么基于端对端训练的深度神经网络。学习方法更加健壮，但是很难推广到新的环境，并且不如经典方法准确。我们假设它们缺少3D几何提供的约束。在这项工作中，我们介绍了GeoCalib，这是一种深度神经网络，通过优化过程利用3D几何的通用规则。GeoCalib接受端到端的训练，以估计相机参数，并学习从数据中找到有用的视觉线索。在各种基准上的实验表明，GeoCalib比现有的经典和学习方法更健壮、更准确。它的内部优化估计不确定性，这有助于标记故障情况，并有利于视觉定位等下游应用。

3. 效果展示

最近的研究通过以监督方式训练的深度网络解决了单图像标定任务。这些方法可以利用更多的几何和语义线索，因此表现出令人印象深刻的高鲁棒性。然而，为了很好地适应不同的环境，它们需要大量的训练数据，而这些数据的获取成本很高。此外，它们也远不如基于3D几何的经典方法准确（图1）。直观地说，每个深度网络在训练时都需要从头开始学习投影几何。在有限的模型容量下，这只能在训练数据的领域内进行近似，而无法保证在外部的有效性。

4. 主要贡献

与黑盒深度网络相比，GeoCalib具有多个实际优势。当部分参数已知时（例如内参），GeoCalib可以利用这些先验信息更准确地估计剩余参数。这使得它能够处理不同的相机模型，如针孔和鱼眼相机，而无需重新训练。GeoCalib也更易于解释：我们可以轻松可视化它所依赖的线索，并且优化不确定性有助于标记失败案例并有利于下游应用。为了支持这一点，我们展示了GeoCalib可以显著提高视觉定位的准确性。代码和训练模型将公开发布。

5. 方法

GeoCalib 首先利用深度神经网络（DNN）从输入图像中推断出视觉线索——一个带有相关置信度的透视场。然后，通过迭代优化，将相机参数 θ 与这些线索保持一致（图 2）。随后，通过监督优化结果对 DNN 进行端到端训练。推荐课程：相机模型与标定系统教程（单目+双目+鱼眼+深度相机）。

6. 实验结果

7. 总结 & 未来工作

本文介绍了 GeoCalib，这是一种新的单图像校准方法，结合了学习和几何学的最佳优势。由于其可微分的优化特性，GeoCalib 学习了强大的先验知识，使其比现有方法更准确、更鲁棒，并且对不同环境的泛化能力强。GeoCalib 在相机模型、先验知识和不确定性方面提供了很大的灵活性，因此更容易集成到下游应用中。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

3D视觉工坊提供35个顶会论文的课题如下：

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群

添加小助理: CV3d008，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

ECCV'24开源 | 兼具精确性与鲁棒性！轻松估计相机的内参和外参！

推荐体验

近期资讯

努比亚Z70 Ultra真机首曝：全球首发1.5K真全面屏

王一鸣：人工智能正向数字贸易领域渗透并成为新驱动力

申万宏源：硅光产业链“爆发时刻”已来临光通信在ICT领域的渗透将迎来新一轮成长

数字里的新质生产力｜数字化率近90% 5G助力“智”炼钢铁

Redmi Buds 6首发评测：旗舰音质+长效续航重塑无线耳机性价比标杆

信通院公布“可信AI”大模型评测结果猿辅导大模型获业内最高评级

鄂琼连心抗“摩羯”，湖北联通突击队圆满完成驰援海南应急通信保障任务

广电总局：将一体推进电视大屏和手机小屏超高清化

上海交大最新 Nature，联合宁德时代实现钙钛矿光伏模组新突破

为用户隐私和交易安全保驾护航，35款认证类SDK已适配HarmonyOS NEXT

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响