当前位置:首页|资讯

ECCV'24 | RoadSense3D:涵盖路边场景的大规模自动驾驶数据集

作者:3D视觉工坊发布时间:2024-09-18

来源:计算机视觉工坊

添加小助理:CV3d008,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:Transfer Learning from Simulated to Real Scenes for Monocular 3D Object Detection

作者:Sondos Mohamed, Walter Zimmer, Ross Greer, Ahmed Alaaeldin Ghita, Modesto Castrillón-Santana, Mohan Trivedi, Alois Knoll, Salvatore Mario Carta, Mirko Marras

机构:University of Cagliari、Technical University of Munich (TUM)、University of California Merced (UCM)、Universidad de Las Palmas de Gran Canaria、University of California San Diego (UCSD)

原文链接:https://arxiv.org/abs/2408.15637

代码链接:https://github.com/roadsense3d/roadsense3d

官方主页:https://roadsense3d.github.io/

1. 引言

随着城市区域的扩张和交通管理与安全方面面临的复杂挑战,智能城市的发展变得日益重要。例如,在加拿大和美国,十字路口是导致重大伤害和车辆碰撞的主要原因之一。将摄像头等先进技术融入监测系统,是智能城市概念的核心。仅在中国,就有约2亿台户外摄像头部署在“天网”项目中。尽管激光雷达和雷达也被用于交通监测,但摄像头以其广泛的感知范围和成本效益高的解决方案,使得其部署更为广泛且经济实惠。

在单目摄像头图像中准确检测物体对于促进智能监控和有效决策至关重要。近年来,深度学习的发展激发了人们对2D/3D物体检测方法的浓厚兴趣。传统的单步和两步2D物体检测方法主要分析像素级信息,以及最近的无锚点和基于Transformer的方法,已被应用于交通监测和应用中。然而,仅提供2D检测的方法在提供物体之间以及以自我为中心的物体之间的精确现实世界距离测量方面存在局限性。这一局限性凸显了对场景更全面理解和先进3D物体检测能力开发的必要性。

最近,人们对基础设施3D数据集的兴趣日益增长。最新的单目3D模型已显示出令人印象深刻的结果。然而,泛化仍然是一个重大挑战,而且大多数模型都是领域特定的。将这些模型暴露于具有不同因素的多样化数据集可以增强其鲁棒性。例如,在广泛的室内和室外数据集上训练的Cube R-CNN和Uni-Mode模型就体现了这一方法。尽管这些模型取得了成功,但它们在不熟悉的环境中(如路边场景)仍然面临挑战。另一项工作MonoUNI集成了车辆和基础设施数据,增加了远程感知能力,并在Rope3D、DAIR-V2X-I、KITTI、Waymo和nuScenes五个基准上进行了评估。然而,车辆和基础设施领域的单独训练仍然是必要的,并且尚未实现将两个领域结合起来的混合训练。此外,尽管DAIR-V2XI和Rope3D作为路边数据集存在差异,但它们在视角上具有相似性。另一方面,该模型在推理过程中需要校准信息,而路边基础设施摄像头中往往缺乏此类信息。因此,需要具有零样本能力的单目3D模型来生成物体的3D位置、大小和方向(每个物体9个属性)。

虽然这些模型在典型(驾驶)条件下表现出高精度,但在遇到路边场景(如因事故而倾斜或翻倒的车辆)时,其性能会显著下降,这主要是由于数据标注过程中的局限性。具体来说,大多数自动驾驶模型主要依赖偏航角[13],而往往忽略横滚角和俯仰角,因为它们在大多数情况下为零。然而,在准确检测轻微升高处的物体(如路边场景中的物体)时,这些角度至关重要。

为了解决这些局限性,本文使用Cube R-CNN模型进行了全面的迁移学习实验,从RoadSense3D等合成数据集过渡到TUM Traffic A9 Highway(TUMTraf-A9)和DAIR-V2X-I等现实世界数据集。在这些实验中,我们将横滚角和俯仰角纳入训练和测试阶段。现实世界的数据集来自多个城市,每个城市的基础设施配置不同,从而确保模型能够接触到各种城市环境,以提高其泛化能力。通过对这三个现实世界数据集的广泛评估,我们证明了从模拟场景过渡到真实场景时,迁移学习将TUMTraf-A9数据集的3D mAP结果从0.26提高到12.76,将DAIR-V2X-I数据集的3D mAP结果从2.09提高到6.60。我们在项目网站上提供了模型代码、数据集和定性视频结果:https://roadsense3d.github.io。

2. 摘要

由于相机视角的变化和不可预测的场景条件,在动态路边场景中从单目图像中准确检测3D对象仍然是一个具有挑战性的问题。本文介绍了一个两阶段的培训策略来应对这些挑战。我们的方法首先在大规模合成数据集RoadSense3D上训练一个模型,该数据集为鲁棒的特征学习提供了一系列不同的场景。随后,我们在真实世界数据集的组合上微调该模型,以增强其对实际条件的适应性。Cube R-CNN模型在具有挑战性的公共基准上的实验结果显示了检测性能的显著改善,当执行迁移学习时,在TUM Traffic A9高速公路数据集上的平均精度从0.26上升到12.76,在DAIR-V2X-I数据集上的平均精度从2.09上升到6.60。项目网站上提供了代码、数据和定性视频结果

RoadSense3D是一个覆盖路边场景的大规模合成数据集。它包含140万个标记的摄像机帧,其中900万个标记的3D交通参与者记录在CARLA模拟器中。

4. 主要贡献

总而言之:

RoadSense3D数据集由在各种照明和天气条件下记录的标记交通场景组成,例如。

我们对最新的单目3D物体检测方法进行了深入的比较。

我们扩展了立方体R-CNN模型,使其与各种数据集兼容。

我们开发领域适应方法来提高推广。推荐课程:多传感器标定不得不聊的20种标定方案(Lidar/Radar/Camera/IMU等)

我们在RoadSense3D数据集、TUM Traffic数据集和DAIR-V2X数据集上进行广泛的迁移学习实验和消融研究。

我们开源我们的代码和数据集,并提供一些定性的视频结果。

5. 方法

我们首先从数学角度对单目相机3D物体检测任务进行公式化表述。接下来,我们根据路边场景介绍模型选择过程。然后,我们描述使用合成数据进行初步训练的过程,这包括详细介绍数据集以及从头开始训练模型的方法。之后,我们详细阐述微调阶段,讨论所选的真实世界数据集以及微调过程的技术方面。

6. 实验结果

在本研究中,我们利用Cube R-CNN模型进行了广泛的迁移学习实验,从RoadSense3D等合成数据集过渡到TUMTraf-A9和DAIR-V2X-I等现实世界数据集。通过将俯仰角和横滚角纳入训练和测试阶段,并在多个具有不同基础设施的城市中进行评估,我们展示了检测精度的显著提升。直接迁移学习在TUMTraf-A9数据集上将3D mAP从0.26提升至12.76,在DAIR-V2X-I数据集上将3D mAP从2.09提升至6.60,展现了在实际应用中的显著性能提升。我们的研究结果表明,尽管多步骤迁移学习有益,但直接在目标数据集上进行微调能取得更优结果。这种方法弥合了模拟与现实之间的差距,为智能交通系统中的更鲁棒和适应性更强的模型铺平了道路。其潜在应用不仅限于交通监控,还包括自动驾驶和智慧城市基础设施,其中准确且可扩展的3D感知对于提升安全性和效率至关重要。

7. 总结 & 未来工作

未来的研究将探索将其他单目对象检测方法适配到现有的迁移学习框架中,纳入所有偏航角、俯仰角和横滚角变化,以增强这些方法对路边场景的适应性。我们计划进行详细的检查,以识别迁移学习表现不佳的场景,旨在指导新型方法的发展。此外,将积极学习和知识蒸馏整合到迁移学习过程中,以优化这一过程,重点选择最具信息量的示例来让模型适应。另外,我们还将研究将这些3D对象检测方法整合到现实世界中智慧城市应用的异常检测流程中,特别是通过更精确的对象检测来增强事故检测和预防策略。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿:具身智能、大模型、Mamba、扩散模型等

除了这些,还有求职硬件选型视觉产品落地、产品、行业新闻等交流群

添加小助理: CV3d008,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

3D视觉知识星球

具身智能、3DGS、NeRF结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真C++、三维视觉python、dToF、相机标定、ROS2机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

▲长按扫码学习3D视觉精品课程

3D视觉模组选型:www.3dcver.com

—  —



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1