当前位置:首页|资讯

最新综述!全面总结双目深度估计

作者:3D视觉工坊发布时间:2024-10-08

0. 论文信息

标题:Event-based Stereo Depth Estimation: A Survey

作者:Suman Ghosh, Guillermo Gallego

机构:TU Berlin and Robotics Institute Germany、Science of Intelligence Excellence Cluster and Einstein Center Digital Future

原文链接:https://arxiv.org/abs/2409.17680

1. 摘要

立体视觉在机器人领域具有广泛的吸引力,因为它是生物感知深度以导航我们的3D世界的主要方式。事件摄像机是新颖的生物启发传感器,可异步检测每像素亮度变化,具有非常高的时间分辨率和高动态范围,使机器能够在高速运动和宽照明条件下感知。高时间精度也有利于立体匹配,使视差(深度)估计成为事件摄像机自诞生以来的热门研究领域。在过去的30年里,该领域发展迅速,从低延迟、低功耗电路设计到当前由计算机视觉社区驱动的深度学习(DL)方法。由于其高度跨学科的性质,对于非专家来说,参考书目非常庞大且难以浏览。过去的调查已经解决了这个问题的不同方面,在应用的背景下,或只集中在一个特定类别的技术,但忽略了立体数据集。这项调查提供了一个全面的概述,涵盖了瞬时立体和长期的方法,适合同步定位和测绘(SLAM),以及理论和经验的比较。它是第一个广泛审查DL方法以及立体数据集,甚至为创建新的基准提供实际建议,以推进该领域。还讨论了基于事件的立体深度估计的主要优势和面临的挑战。尽管取得了重大进展,但在实现准确性和效率(基于事件的计算的基石)的最佳性能方面仍然存在挑战。我们确定了几个差距,并提出了未来的研究方向。我们希望这项调查能够启发这一领域未来的研究,为新来者提供一个方便的切入点,也为社区中经验丰富的研究人员提供一个实用的指南。推荐课程:单目深度估计方法:算法梳理与代码实现。

2. 引言

传统相机所获取的(信息)是计算机视觉和机器人学领域极为关注的一个课题,因为它试图模拟人脑的同样功能(即,反转透视投影操作),并且具有无数应用(因为我们生活在一个三维世界中)。

事件相机是一种新颖的生物启发传感器,它们模仿人类视觉系统的瞬态视觉通路,以异步方式输出像素级的强度变化,而不是以固定速率输出强度帧。自开创性工作(2008年)以来,由于其吸引人的特性,事件相机在具有挑战性的场景中(如高速运动、高动态范围(HDR)照明和低功耗)表现优异,因此受到了越来越多的关注。因此,近年来,这种硬件技术已从大学实验室走向初创公司,相机行业的领先公司(如索尼、豪威科技、三星等)已对其进行收购或参与其中。事件相机的优势正在被用来解决计算机视觉和机器人学中的各种任务,如光流估计、模式识别、视频合成、增强现实/虚拟现实(AR/VR)和即时定位与地图构建(SLAM)。

关于基于事件的深度估计的文献是最近才出现的,但一直在持续增长(见图1和表2)。它可以根据不同的标准进行分类,这些标准通常与硬件设置的类型、场景中的假设或约束以及目标任务(即输入/输出)有关,如表2中的列所示。

1)第一个分类标准是所考虑的事件相机数量:一个(即单目)与立体(或一般的多相机)。

2)另一个分类标准是深度估计是否需要知道相机运动(作为外部输入,或同时估计或由其他传感器提供)。这与该方法是否在移动平台上测试过是不同的。

3)第三个标准是该方法是否基于模型(即手工制作的)或基于学习(即数据驱动的)。早期工作属于前者范式,而新方法则以后者为主(见图1)。

4)第四个标准涉及输出类型(因为所有方法的输入都是相同的:原始事件)。方法可能基于每个事件输出深度(即,在每个异步亮度变化时),或在指定时间基于每个像素输出深度(例如,在使用事件网格状表示时)。输出可以是密集的(针对每个像素),也可以是半密集/稀疏的(例如,在物体轮廓或事件数据位置)。

第二个标准可以表述为“瞬时”与“长时间基线”立体深度估计。“瞬时”指的是仅使用短时间间隔内可用的事件数据来估计深度的立体方法,对于这种方法,除了外部校准外,不需要关于相机运动的其他信息。因此,它们通常可用于涉及两个同步事件相机的任何场景。它们在相机静止且观察独立移动物体的场景中表现尤为出色。另一方面,“长时间基线”立体指的是涉及自我运动的情况,其中通过融合对同一三维结构的多个连续深度观察来更准确地估计场景深度。这种融合需要知道相机运动以正确关联观察结果。通过使用相机运动进行时间聚合,这些方法估计的深度随时间推移更加准确和一致。例如,在视觉里程计(VO)和SLAM中,它们会生成场景的可靠地图以实现精确定位,这是实现自主机器人导航的基础技术。

聚合数据的时间长度和相机运动的知识(或缺乏)与场景的动态性有关:“瞬时”方法通常能更好地处理包含独立运动的动态场景,而“长时间基线”方法更适合场景的持久部分,即静止部分。动态性不是二元的;它取决于相机与场景之间的相对速度差异(例如,与相机运动相比,场景中移动较少的部分可能适合使用“长时间基线”方法)。在文献中,我们观察到只有一小部分立体方法处理了适合SLAM的时间聚合的额外复杂性。

上述标准代表变化的正交轴。然而,为了呈现文献,我们需要采用线性顺序;因此,我们重点关注立体方法(标准#1),并按照标准#2(所解决问题的类型)指示的结构进行,并根据标准#3划分小节。在需要时,我们将对输出类型(标准#4)进行说明。

最后,我们对图3中文献的分析表明,由于基于事件的立体方法具有跨学科性质,因此已在多个不同领域的场合中发表(视觉、机器人学、神经科学、机器学习、电路设计、仪器仪表等),而没有占主导地位的发表场合。这一趋势最近正在发生变化,因为计算机视觉和机器人学领域正在将最新努力集中在深度估计上,这恰逢该技术变得更加普及(并且越来越多的研究实验室正在投入其中),同时,许多用于基准测试和训练神经网络的公共数据集的可用性也在增加,这些网络正在强烈推动该领域的发展。

备注:深度和视差经常互换使用。虽然它们是不同的(深度是指三维场景中沿相机光轴(Z)的分量,而视差是指三维点投影之间的基于图像的位移),但它们通过相机参数和几何配置相关联。在具有焦距为f且基线距离为b的相机的规范立体配置中,可以使用公式Z = (b · f)/Δx'计算深度,其中Δx'是视差。

3. 立体(及多相机)方法

本节介绍使用两个或多个事件相机进行深度估计的算法。大多数工作遵循经典(即基于帧)范式,将立体深度估计问题分解为两个连续步骤:首先,在图像平面之间建立立体对应关系(“立体匹配”),然后通过反投影这些对应关系来计算相应的3D点(“三角测量”)。
第一个子问题(立体匹配)比第二个子问题更难。通常利用问题的几何配置来避免在整个图像平面上搜索对应关系:极线约束将搜索范围缩小到极线。此外,由于事件相机具有独特的属性,如空间稀疏性和时间准连续性输出,因此可以使用精确的事件时间戳对像素进行立体匹配。
通常假设运动物体会在两个相机视图中同时/共同/巧合地触发事件。自事件相机诞生以来,这一想法就引起了广泛关注(图4)。



深度密集事件立体(DDES)是首个仅使用深度学习的事件立体方法。整体网络架构由嵌入、匹配和正则化模块组成,后面跟着一个估计器。它通过连续的全连接层学习事件序列嵌入,并预测密集视差。由此生成的深度图在物体边缘和局部结构周围呈现的细节较差。许多后续方法试图通过明确包含强度信息(要么通过事件重建图像,要么使用同时捕获的帧)来克服这一缺陷。

表4总结了基于学习的方法的性能比较。鉴于其缺乏可解释性,其优点大多通过经验判断(在这种情况下,通过预测准确度指标)。评估采用了在移动平台上获取真实深度信息的多模态数据集(如MVSEC和DSEC)。有趣的是,虽然这些数据集旨在推动视觉里程计(VO)/同时定位与地图构建(SLAM)研究,以实现机器人自主化(这意味着需要长期深度估计),但它们也被用于定义瞬时深度预测基准(表4中的大多数方法)。

在去除起飞和降落部分后,使用三个室内飞行序列进行3折交叉验证或“拆分”。拆分1意味着该方法在序列1上进行测试,并在其他两个序列上进行训练。深度误差是通过使用激光雷达(以20Hz的频率)获得的每个真实深度图前后0.05秒内未失真校正的事件估计来计算的。许多方法没有报告拆分2的结果,原因是训练和测试事件在该拆分上的动态特性存在差异,导致泛化能力差。

表4右半部分的评估基于2021年计算机视觉与模式识别大会(CVPR)基于事件视觉研讨会期间推出的DSEC视差基准。使用激光雷达扫描获得的10Hz真实视差图对密集视差输出进行评估。

用于比较的性能指标(FOM)包括:

• 平均深度误差。

• 一个像素误差:计算视差误差小于一个像素的像素百分比。

• MAE:视差平均绝对误差。

• 1PE:1像素误差,真实像素中视差误差大于1像素的百分比。

• 2PE:2像素误差,真实像素中视差误差大于2像素的百分比。

• RMSE:视差均方根误差。

表4中的方法根据用于估计的传感器类型(“模态”列)和时间顺序进行组织。StereoFlow-Net和Chen等人在仅基于事件的方法中表现最佳(表4上半部分),而结合了强度帧的Conc-Net和SCS-Net在传感器融合方法中表现最佳(表4中间部分)。正如预期,当帧与事件结合使用时,由于它们提供了无事件数据区域的信息,FOMs显著提高。在我们比较中的混合立体方法中(表4下半部分),通过推断相机运动和聚合时间信息的立体方法SAFE [16]在DSEC基准上表现最佳。

总体而言,在保持一致性的同时聚合时间信息的方法似乎表现更好,这表明考虑更大的时间上下文是有价值的。我们还观察到,与最佳监督方法相比,无监督方法的性能存在差距,这表明未来研究具有潜力。

图18展示了文献中针对MVSEC数据的最新数据驱动方法估计的样本深度图。将DDES(2019年)的输出与StereoFlow-Net(2024年)的输出进行比较,我们发现这些年来深度准确性和物体边界清晰度有了显著提高。此外,图19所示的DSEC基准上的视差图也显示了基于学习的密集立体方法在驾驶场景中的类似进展。最近的神经网络在HDR条件下解析细节的能力越来越强(底行)。然而,在事件计数较低的像素(如向前行驶时图像中心)中,估计质量显著下降,这仍然是基于事件回归任务中的一个未解决问题。

自20世纪90年代以来,手工设计的事件深度估计方法就已存在(表2)。其中一些方法(截至2018年)已在表3中进行了理论和实证比较。然而,由于当时缺乏公共基准,其中大多数方法是在不同的自收集数据集上进行评估的,这些数据集的自运动往往非常有限。自MVSEC和DSEC等数据集问世以来,比较深度估计方法变得更加容易。表5和表6总结了这些标准数据集上最近基于模型的方法的评估结果。有趣的是,这些表中的大多数方法都是为VO/SLAM设计的,利用相机运动作为额外输入,产生半密集输出深度图。这类基于模型的长期深度估计方法与数据驱动的瞬时方法并行发展,并定义了各自的基准。

表5收集了MVSEC室内飞行序列的评估结果。根据ESVO的建议,使用1秒观测窗口来传播和融合通过如GTS和SGM等瞬时方法获得的深度。该表展示了一组从视觉深度预测文献中借鉴的十个标准指标。存在精度和完整性的权衡,因此使用同时报告两者的FOMs很重要。该表报告了预测深度和真实深度之间的平均误差和中值误差(中值误差对异常值具有鲁棒性)、重建点的数量、异常值的数量(坏像素)、尺度不变对数误差(SILog Err)、深度相对差异绝对值的和(AErrR),以及深度比相对于真实值在某一阈值内的点的百分比(δ-准确度值)。在排名方面,MC-EMVS整体表现最佳,紧随其后的是ESVO。SGM在时间曲面上重建了更多的点(即更高的完整性),但准确性较低。

表6使用与表5相同的十个指标,展示了DSEC数据集一个序列的相应评估结果。鉴于VGA分辨率相机产生的大量事件,观测窗口缩短至0.2秒。由于利用了空间视差,立体相对于单目在两张表中都一致表现出明显优势:平均误差降低了30%–45%,异常值也减少了(超过一半),同时恢复的点数量保持不变。最后,值得注意的是,许多立体VO/SLAM系统并未直接报告其深度估计(即映射)模块的性能。相反,它们提供了一种替代的、尽管间接的评估方法,即基于姿态误差的评估,该方法不需要访问真实深度。理想情况下,VO/SLAM系统应分别表征其定位和映射模块的质量。然而,由于(i)这两个模块以相互交织的方式运行(深度误差影响相机姿态误差,反之亦然),并且(ii)真实定位信息更加紧凑(6自由度)且比准确真实深度更容易获取,结果是深度估计误差被纳入相机轨迹误差的评估中。虽然表4左半部分和表5中的平均深度误差似乎以相同格式指定,但请注意,它们来自不同的观测窗口和重建点。来自人工神经网络(ANN)的密集视差(深度)输出在所有可用真实深度的像素上进行评估,而来自基于模型的方法的半密集输出则在包含输入事件和真实深度的较少像素上进行评估。因此,应谨慎进行比较。在MVSEC上,基于学习的瞬时方法的误差(表4左半部分)明显小于当前的基于模型的长期方法。这种差距可能是由于不同的观测窗口以及这些学习方法可能对该场景(MVSEC飞行室)过拟合,因为当它们应用于其他数据集时,它们显示出较差的泛化能力。相反,基于模型的方法不会受到过拟合问题的影响。解释DSEC值需要将数字从视差(表4右半部分)转换为深度(表6),这并不简单。不过,预计会呈现类似的趋势。

4. 未来研究及讨论

让我们概述一些基于事件的双目深度估计中潜在的未来研究方向:

• 无监督学习。尽管深度估计的监督学习方法将持续改进,但研究更好的无监督/自监督方法以消除对真实值(Ground Truth,GT)或辅助数据(例如帧)的需求是值得期待的。为了取得进展和理解,也需要解释性。

• 最优事件表示。当前大多数方法都涉及形成具有高动态范围(HDR)和低运动模糊特性的事件“良好”图像,同时尝试为基于特征的双目匹配在纹理缺失和无运动像素中填充数据。在这类方法中,寻找最佳表示(即有效利用稀疏性同时最大化准确性)用于特征提取是一个尚未解决的问题。

• 在高效硬件上的脉冲神经网络(Spiking Neural Networks,SNNs)。为了实现事件相机低功耗、低延迟的边缘计算潜力,应在高效的神经形态硬件上实现SNNs,这些硬件在准确性方面能与表现最佳的非脉冲方法相媲美。目前,像StereoSpike这样有前景的方法是在图形处理器(Graphics Processing Unit,GPU)上实现的。神经形态硬件的发展需要迎头赶上,并且将从与算法软件的协同设计中受益。

• 更长的时域上下文。通过相机运动输入或循环连接在深度学习管道中融入更长的上下文,将提高静态场景(Simultaneous Localization and Mapping,SLAM)的准确性。它还将改善事件生成较少的区域的密集深度估计。

• 隐式3D表示。除了常见的代价体积网格和视差空间图像外,隐式表示(如3D高斯溅射和神经辐射场(Neural Radiance Fields,NeRFs))可用于在多视图双目匹配期间对场景进行编码,以实现高效的长期融合和视角无关渲染。近期工作已在单目设置中使用这些表示与事件相机结合,但重点在于无模糊、HDR强度渲染,有时与互补传感器(例如传统相机)结合使用。

• 联合估计。通过结合不同观测窗口的深度估计,可以开发算法来联合解决独立的运动分割和长期深度估计问题,以实现稳健的SLAM。应考虑许多其他涉及深度估计的联合问题(以提高鲁棒性)。

• 抗闪烁。为了使事件相机在夜间条件下得到广泛应用,需要解决抗闪烁问题,可以通过显式滤波器或对其具有免疫力的中间表示来实现。

• 高清相机的低延迟算法。为了提高分辨率和效率,需要开发实时算法,通过智能子采样或中间表示来处理现代百万像素事件相机的高事件率。

• 超越基于帧的基准测试。深度估计基准测试需要通过同步深度/视差帧以外的评估来进行改进,并提供高频率深度评估。例如,在M3ED中,一个应用程序接口(Application Programming Interface,API)通过在插值的相机姿态处投影点云,实现了在任意时间戳的深度读取。

• 瞬时双目基准测试。需要强大的瞬时双目基准测试,涉及固定相机观测动态场景。

• 可访问的基准测试和比较。社区将从跨多个数据集(和平台)全面报告多个性能指标(准确性、完整性、功耗、延迟等)中受益。通过提供API和数据转换工具使数据集可访问,也促进了其作为标准基准测试的采用。为了辅助这种标准化,本调查广泛讨论了现有数据集,整理了它们上的性能指标,并指导了新双目基准测试的建立。

5. 总结

在本文中,我们调查了基于事件的双目深度估计领域的现状,迄今为止提供了对该主题最深入且广泛的覆盖。我们追溯了其从90年代初的起源,对主要方法进行了分类,并讨论了多年来不断变化的趋势。我们全面涵盖了现有算法,深入了解了它们的运行原理、优缺点。我们还使用通用基准测试对它们进行了实证比较。通过这一分析,我们确定了当前的主流方法、性能差距和未来研究方向。为了支持基于结果的开发和数据驱动算法,我们广泛调查了相关的双目事件数据集,并为数据收集和建立基准测试提供了最佳实践建议。基于事件的双目深度感知在具有挑战性的高速运动和HDR照明条件下,解锁了低功耗、设备上空间人工智能的潜力。这一相对较新的领域文献正在不断增长,创新机会众多。我们希望本调查能为初入这一激动人心领域的新人提供一个易于理解的切入点,同时也为经验丰富的专家提供实用指南。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

3D视觉工坊可提供顶会论文的课题如下:

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿:具身智能、大模型、Mamba、扩散模型等

除了这些,还有求职硬件选型视觉产品落地、产品、行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。




Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1