ECCV'24 | RoadSense3D：涵盖路边场景的大规模自动驾驶数据集

作者：3D视觉工坊发布时间：2024-09-18

来源：计算机视觉工坊

添加小助理：CV3d008，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：Transfer Learning from Simulated to Real Scenes for Monocular 3D Object Detection

作者：Sondos Mohamed, Walter Zimmer, Ross Greer, Ahmed Alaaeldin Ghita, Modesto Castrillón-Santana, Mohan Trivedi, Alois Knoll, Salvatore Mario Carta, Mirko Marras

机构：University of Cagliari、Technical University of Munich (TUM)、University of California Merced (UCM)、Universidad de Las Palmas de Gran Canaria、University of California San Diego (UCSD)

原文链接：https://arxiv.org/abs/2408.15637

代码链接：https://github.com/roadsense3d/roadsense3d

官方主页：https://roadsense3d.github.io/

1. 引言

随着城市区域的扩张和交通管理与安全方面面临的复杂挑战，智能城市的发展变得日益重要。例如，在加拿大和美国，十字路口是导致重大伤害和车辆碰撞的主要原因之一。将摄像头等先进技术融入监测系统，是智能城市概念的核心。仅在中国，就有约2亿台户外摄像头部署在“天网”项目中。尽管激光雷达和雷达也被用于交通监测，但摄像头以其广泛的感知范围和成本效益高的解决方案，使得其部署更为广泛且经济实惠。

在单目摄像头图像中准确检测物体对于促进智能监控和有效决策至关重要。近年来，深度学习的发展激发了人们对2D/3D物体检测方法的浓厚兴趣。传统的单步和两步2D物体检测方法主要分析像素级信息，以及最近的无锚点和基于Transformer的方法，已被应用于交通监测和应用中。然而，仅提供2D检测的方法在提供物体之间以及以自我为中心的物体之间的精确现实世界距离测量方面存在局限性。这一局限性凸显了对场景更全面理解和先进3D物体检测能力开发的必要性。

最近，人们对基础设施3D数据集的兴趣日益增长。最新的单目3D模型已显示出令人印象深刻的结果。然而，泛化仍然是一个重大挑战，而且大多数模型都是领域特定的。将这些模型暴露于具有不同因素的多样化数据集可以增强其鲁棒性。例如，在广泛的室内和室外数据集上训练的Cube R-CNN和Uni-Mode模型就体现了这一方法。尽管这些模型取得了成功，但它们在不熟悉的环境中（如路边场景）仍然面临挑战。另一项工作MonoUNI集成了车辆和基础设施数据，增加了远程感知能力，并在Rope3D、DAIR-V2X-I、KITTI、Waymo和nuScenes五个基准上进行了评估。然而，车辆和基础设施领域的单独训练仍然是必要的，并且尚未实现将两个领域结合起来的混合训练。此外，尽管DAIR-V2XI和Rope3D作为路边数据集存在差异，但它们在视角上具有相似性。另一方面，该模型在推理过程中需要校准信息，而路边基础设施摄像头中往往缺乏此类信息。因此，需要具有零样本能力的单目3D模型来生成物体的3D位置、大小和方向（每个物体9个属性）。

虽然这些模型在典型（驾驶）条件下表现出高精度，但在遇到路边场景（如因事故而倾斜或翻倒的车辆）时，其性能会显著下降，这主要是由于数据标注过程中的局限性。具体来说，大多数自动驾驶模型主要依赖偏航角[13]，而往往忽略横滚角和俯仰角，因为它们在大多数情况下为零。然而，在准确检测轻微升高处的物体（如路边场景中的物体）时，这些角度至关重要。

为了解决这些局限性，本文使用Cube R-CNN模型进行了全面的迁移学习实验，从RoadSense3D等合成数据集过渡到TUM Traffic A9 Highway（TUMTraf-A9）和DAIR-V2X-I等现实世界数据集。在这些实验中，我们将横滚角和俯仰角纳入训练和测试阶段。现实世界的数据集来自多个城市，每个城市的基础设施配置不同，从而确保模型能够接触到各种城市环境，以提高其泛化能力。通过对这三个现实世界数据集的广泛评估，我们证明了从模拟场景过渡到真实场景时，迁移学习将TUMTraf-A9数据集的3D mAP结果从0.26提高到12.76，将DAIR-V2X-I数据集的3D mAP结果从2.09提高到6.60。我们在项目网站上提供了模型代码、数据集和定性视频结果：https://roadsense3d.github.io。

2. 摘要

由于相机视角的变化和不可预测的场景条件，在动态路边场景中从单目图像中准确检测3D对象仍然是一个具有挑战性的问题。本文介绍了一个两阶段的培训策略来应对这些挑战。我们的方法首先在大规模合成数据集RoadSense3D上训练一个模型，该数据集为鲁棒的特征学习提供了一系列不同的场景。随后，我们在真实世界数据集的组合上微调该模型，以增强其对实际条件的适应性。Cube R-CNN模型在具有挑战性的公共基准上的实验结果显示了检测性能的显著改善，当执行迁移学习时，在TUM Traffic A9高速公路数据集上的平均精度从0.26上升到12.76，在DAIR-V2X-I数据集上的平均精度从2.09上升到6.60。项目网站上提供了代码、数据和定性视频结果

RoadSense3D是一个覆盖路边场景的大规模合成数据集。它包含140万个标记的摄像机帧，其中900万个标记的3D交通参与者记录在CARLA模拟器中。

4. 主要贡献

总而言之:

RoadSense3D数据集由在各种照明和天气条件下记录的标记交通场景组成，例如。

我们对最新的单目3D物体检测方法进行了深入的比较。

我们扩展了立方体R-CNN模型，使其与各种数据集兼容。

我们开发领域适应方法来提高推广。推荐课程：多传感器标定不得不聊的20种标定方案（Lidar/Radar/Camera/IMU等）

我们在RoadSense3D数据集、TUM Traffic数据集和DAIR-V2X数据集上进行广泛的迁移学习实验和消融研究。

我们开源我们的代码和数据集，并提供一些定性的视频结果。

5. 方法

我们首先从数学角度对单目相机3D物体检测任务进行公式化表述。接下来，我们根据路边场景介绍模型选择过程。然后，我们描述使用合成数据进行初步训练的过程，这包括详细介绍数据集以及从头开始训练模型的方法。之后，我们详细阐述微调阶段，讨论所选的真实世界数据集以及微调过程的技术方面。

6. 实验结果

在本研究中，我们利用Cube R-CNN模型进行了广泛的迁移学习实验，从RoadSense3D等合成数据集过渡到TUMTraf-A9和DAIR-V2X-I等现实世界数据集。通过将俯仰角和横滚角纳入训练和测试阶段，并在多个具有不同基础设施的城市中进行评估，我们展示了检测精度的显著提升。直接迁移学习在TUMTraf-A9数据集上将3D mAP从0.26提升至12.76，在DAIR-V2X-I数据集上将3D mAP从2.09提升至6.60，展现了在实际应用中的显著性能提升。我们的研究结果表明，尽管多步骤迁移学习有益，但直接在目标数据集上进行微调能取得更优结果。这种方法弥合了模拟与现实之间的差距，为智能交通系统中的更鲁棒和适应性更强的模型铺平了道路。其潜在应用不仅限于交通监控，还包括自动驾驶和智慧城市基础设施，其中准确且可扩展的3D感知对于提升安全性和效率至关重要。

7. 总结 & 未来工作

未来的研究将探索将其他单目对象检测方法适配到现有的迁移学习框架中，纳入所有偏航角、俯仰角和横滚角变化，以增强这些方法对路边场景的适应性。我们计划进行详细的检查，以识别迁移学习表现不佳的场景，旨在指导新型方法的发展。此外，将积极学习和知识蒸馏整合到迁移学习过程中，以优化这一过程，重点选择最具信息量的示例来让模型适应。另外，我们还将研究将这些3D对象检测方法整合到现实世界中智慧城市应用的异常检测流程中，特别是通过更精确的对象检测来增强事故检测和预防策略。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群

添加小助理: CV3d008，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

3D视觉知识星球

具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

▲长按扫码学习3D视觉精品课程

3D视觉模组选型：www.3dcver.com
— 完 —

近期资讯

3年来首次！小米再次超越苹果，跻身全球第二大智能手机品牌【附智能手机市场格局分析】
国产智能手机市场情况日益繁荣。随着技术创新和品牌建设，国产手机在设计、性能和价格方面都取得了长足进步。报告显示，2024年8月小米公司的智能手机销量较为平稳，与之同期，苹果的智能手机销量呈现出季节性下滑，双方的排名也因此发生了易位。
前瞻网昨天

三只羊复播差评刷屏主播被骂陷长时间沉默：不要为难打工人
快科技9月18日消息，在因涉嫌误导消费者被立案调查后，三只羊旗下直营以及达人账号在9月17日大部分停止了直播，包括此前每天保持直播的“三只羊网络”。但在今天上午，三只羊官方授权账号“疯狂小杨弟（三只羊）”已恢复直播，不过直播间关闭了评论。
快科技昨天

台风“贝碧嘉”过后，江苏全力恢复正常生产生活秩序

台风“贝碧嘉”来袭前，江苏各地加强部门协作，提前采取一系列措施防御台风，并提前通过多渠道向民众发布预警信息，提醒做好防台防范准备。苏州各部门紧密协作，苏州公安提前部署，在台风来临前，为大闸蟹养殖户紧急转移农用物资，保障群众财产安全。

上游新闻昨天

2024北京文化论坛“文化传播：影视制作与时代表达”平行论坛议程
当影视遇见时代，会碰撞出怎样的火花？2024北京文化论坛“文化传播：影视制作与时代表达”平行论坛即将揭晓答案，让我们一同见证影视制作如何跨越时空，传递文化的力量与温度！
广电视界昨天

东莞跑出超级巨头：年入5.8亿多年全国第一
最近，长联科技向创业板冲刺IPO。2021年至2023年间，公司营业收入分别为58,147.99万元、53,804.69万元和52,993.14万元；净利润分别为6,019.37万元、7,946.35万元和8,251.06万元。
铅笔道pencilnews 昨天

江苏省“感知太湖”平台正式上线
为扎实推动新一轮太湖综合治理，9月18日，江苏省生态环境厅正式上线“感知太湖”平台。“感知太湖”数字平台集成大数据、云计算、人工智能等最新信息技术，从点、线、面三个层次对水质断面、入湖河流和出入湖重要通道、湖体水环境质量实施全方位监测监控。
扬子晚报昨天

ECCV'24 | RoadSense3D：涵盖路边场景的大规模自动驾驶数据集

3D视觉模组选型：www.3dcver.com
— 完 —

推荐体验

近期资讯

3年来首次！小米再次超越苹果，跻身全球第二大智能手机品牌【附智能手机市场格局分析】

不要怀疑，这就是时装魔法！

为机器人赋予空间智能，UIUC团队构建多模态具身智能的3D推理系统

蔚小理们角逐自研芯片，中国新能源围剿英伟达？

三只羊复播差评刷屏主播被骂陷长时间沉默：不要为难打工人

台风“贝碧嘉”过后，江苏全力恢复正常生产生活秩序

2024北京文化论坛“文化传播：影视制作与时代表达”平行论坛议程

东莞跑出超级巨头：年入5.8亿多年全国第一

江苏省“感知太湖”平台正式上线

微信服务号折叠：商家一片哀嚎，用户一片叫好

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

ECCV'24 | RoadSense3D：涵盖路边场景的大规模自动驾驶数据集

3D视觉模组选型：www.3dcver.com— 完 —

3D视觉模组选型：www.3dcver.com
— 完 —