ECCV'24开源 | 加速30%！ToC3D：让基于ViT的多视图3D检测器更快

作者：3D视觉工坊发布时间：2024-09-14

来源：3D视觉工坊

添加小助理：CV3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 这篇文章干了啥？

多视图3D目标检测是计算机视觉中最基本的任务之一，对于许多实际应用（如自动驾驶）至关重要，近年来在这一领域的研究更加深入并取得了巨大成功。

现有的多视图3D目标检测方法主要可以分为两类：基于密集鸟瞰图（BEV）的方法和基于稀疏查询的方法。前者从图像中提取密集的BEV特征，然后与对象查询进行交互以完成检测；而后者则直接利用稀疏对象查询与图像特征进行交互，跳过了密集的BEV特征提取。由于基于稀疏查询的方法主要获取3D对象的特征，而非整个大规模场景的特征，因此它们能更好地利用稀疏性，极大地降低了计算和内存资源的需求。然而，这种设计对图像特征的质量提出了更高的要求，因为基于稀疏查询的方法无法在BEV空间中对特征进行细化。因此，使用具有更好能力的图像主干网络会更有利。

近年来，由于Vision Transformers（ViTs）具有高性能、可扩展性和与多模态基础模型集成的灵活性，它们在视觉任务中占据了主导地位。为了3D检测的性能和灵活性，许多基于稀疏查询的多视图3D检测器都采用了先进的预训练ViTs进行训练。ViTs的使用已成为越来越普遍的趋势。如今，配备强大ViTs的基于稀疏查询的多视图3D检测器已取得了最先进的性能，并几乎主导了排行榜。

然而，尽管基于稀疏查询的方法通过主要集中在3D解码器中的前景对象来提高效率，但通过实验我们发现，推理速度的主要瓶颈并非3D解码器，而是ViT主干网络。其中一个原因是现有的基于稀疏查询的方法未对ViTs进行调整，将前景3D对象和背景事物同等对待。尽管这样做简化了操作，但我们认为这种对ViT主干网络的简单使用并不符合其设计原则：对于3D目标检测来说，前景候选对象比背景更重要，我们无需对背景事物进行详细建模。这种疏忽带来了不必要的负担，促使我们“修剪”ViT主干网络以实现更好的效率。

一个简单的方法是通过对多视图3D检测器的ViT主干网络进行令牌压缩来加速。通过假设只有少量的显著前景令牌，并且只有这些令牌需要细粒度的计算，令牌压缩方法可以在前景和背景令牌之间重新分配计算资源。这可以抑制不必要的计算，并显著降低计算负担。然而，现有的令牌压缩方法最初是为2D视觉任务设计的，并在没有3D感知特征或先验的情况下进行令牌压缩。缺乏3D感知能力在面对具有复杂3D运动变换的对象时会导致次优的令牌压缩，从而严重影响其应用于多视图3D检测器时的性能。

为了在使用ViTs的同时保持高性能来加速多视图3D检测器，本文提出了一种简单而有效的方法，称为TokenCompression 3D（ToC3D）。关键见解是：来自历史预测的对象查询，其中包含3D运动信息，可以作为高质量的前景先验。通过利用这些对象查询，我们可以实现3D感知的令牌压缩和面向前景的计算资源分配。这一见解使我们能够进一步将基于稀疏查询的方法的哲学从3D解码器扩展到整个流程，从而实现更高效的多视图3D目标检测。

具体来说，ToC3D主要包括两个设计：运动查询引导的令牌选择策略（MQTS）和动态路由器。MQTS以图像令牌和历史对象查询为输入，对对象查询的运动信息进行建模，并通过注意力机制计算每个图像令牌的重要性分数。在投影的真实对象的监督下，它学会了将图像令牌分为显著部分和冗余部分。然后，我们将它们传递给动态路由器进行高效的特征提取，其核心是为显著的前景候选对象分配更多的计算资源，并去除不必要的消耗以加速处理。通过将这两个模块与ViT集成，ToC3D进一步提高了基于稀疏查询的多视图3D检测器的效率，并保持了其令人印象深刻的性能。

我们在nuScenes数据集上评估了我们的方法。广泛的实验证明了我们的方法的有效性，如图1(b)所示。具体来说，与StreamPETR基线相比，我们的方法几乎可以在保持性能的同时实现高达30%的推理加速，并进一步将基线加速到与其他基于ResNet的多视图3D检测器[31]相同的水平，同时保持性能优势。在扩展ViT和输入图像分辨率后，准确性和效率之间的权衡改进是一致的。此外，我们的方法也可以应用于其他基线。

下面一起来阅读一下这项工作~

1. 论文信息

标题：https://github.com/DYZhang09/ToC3D

作者：Dingyuan Zhang, Dingkang Liang, Zichang Tan, Xiaoqing Ye, Cheng Zhang, Jingdong Wang, Xiang Bai

机构：华中科技大学、百度

原文链接：https://arxiv.org/abs/2409.00633

代码链接：https://github.com/DYZhang09/ToC3D

2. 摘要

推理速度慢是将多视图3D检测器部署到自动驾驶等高实时要求任务的最关键问题之一。尽管许多基于稀疏查询的方法已经试图提高3D检测器的效率，但是它们忽略了考虑主干，尤其是当使用视觉变压器(ViT)来获得更好的性能时。为了解决这个问题，我们探索了基于token compression的多视点三维检测的有效ViT主干，并提出了一种简单而有效的TokenCompression3D (ToC3D)方法。通过利用历史对象查询作为高质量的前景先验，对其中的3D运动信息进行建模，并通过注意机制将它们与图像标记进行交互，ToC3D可以有效地确定图像标记的信息密度的大小并分割显著的前景标记。通过引入动态路由器设计，ToC3D可以在压缩信息损失的同时将更多计算资源加权到重要的前景令牌，从而实现更高效的基于ViT的多视图3D检测器。在大规模nuScenes数据集上的实验结果表明，我们的方法几乎可以保持最近SOTA的性能，推理加速比高达30%，并且在提高ViT和输入分辨率后，这些改进是一致的。

3. 效果展示

4.贡献

综上所述，我们的方法的主要贡献有两方面：1）我们指出，对ViTs的简单使用带来了不必要的计算负担，并严重阻碍了基于稀疏查询的多视图3D检测器的推理速度。2）我们提出了一种简单而高效的方法ToC3D来解决这个问题，该方法利用具有运动信息的历史对象查询来实现3D运动感知的令牌压缩，并最终获得更快的ViTs。

5. 基本原理是啥？

基于稀疏查询的方法主要通过将稀疏的以对象为中心的查询建模为前景代理，而不是整个3D场景，来提高3D检测器的效率。然而，我们认为，对于现有的基于稀疏查询的方法，在主干网络中同等对待前景和背景的情况下，仍有很大的效率提升空间。当使用ViT[4,14]实现非凡性能时，主干网络成为推理速度的瓶颈。

为了解决上述问题，我们提出利用令牌压缩来扩展基于稀疏查询方法的设计理念，将其应用于ViT主干网络，命名为TokenCompression3D（ToC3D）。如图2(a)所示，ToC3D主要包括两个设计：运动查询引导的令牌选择策略（MQTS）和动态路由器。每个块中的令牌压缩过程如下：1) 首先，MQTS将图像令牌和历史对象查询作为输入，并通过图像令牌和历史查询之间的注意力计算每个图像令牌的重要性得分，从而将图像令牌分为显著令牌和冗余令牌。2) 然后，使用动态路由器从不同组的令牌中高效地提取特征。显著令牌被传递到常规路径，该路径由多个注意力块组成。冗余令牌则通过带有恒等层的自由路径来节省计算成本。为了在注意力块中保持显著令牌和冗余令牌之间的交互，我们将冗余令牌合并为一个桥接令牌，并将其附加在显著令牌之前，然后送入常规路径。3) 最后，在获得显著令牌和冗余令牌的特征后，我们重新排列这些令牌以符合典型3D对象检测器的兼容性。

通过堆叠启用令牌压缩的块，计算资源被动态且更密集地分配给前景候选框，从而消除了不必要的消耗并显著加速了推理过程。最终，我们有效地修剪了ViT主干网络，并开发了一个更高效的基于稀疏查询的多视图3D检测器，配备了3D稀疏解码器。

6. 实验结果

7. 总结 & 未来工作

在本文中，我们指出，简单地使用ViT会带来不必要的计算负担，并严重阻碍现有基于稀疏查询的多视图3D检测器的速度。为了获得更高效的稀疏多视图3D检测器，我们提出了一种简单而有效的方法，称为ToC3D。ToC3D配备了MQTS和动态路由器，利用历史对象查询作为高质量的前景先验，在其中建模3D运动信息，并对重要的前景令牌分配更多计算资源，同时压缩信息损失。通过这样做，我们将基于稀疏查询方法的设计理念从3D解码器扩展到整个流程。在大规模nuScenes数据集上的实验表明，我们的方法可以在轻微性能损失的情况下提升推理速度，并且使用历史对象查询可以带来更好的结果。我们希望本文能够激发对高效多视图3D检测器的研究，并作为一个强大的基线。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群

添加小助理: CV3d001，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

3D视觉模组选型：www.3dcver.com

— 完 —

近期资讯

销售业绩军令状：通过软件，将iPad与大屏完美结合的创意签署现场
在现代企业的销售管理中，销售动员大会是提升士气、明确目标的重要活动。而“军令状”作为这种活动中的核心部分，通常用来激励销售团队，实现全年业绩目标。随着科技的进步，传统的纸质签署方式逐渐被创新的电子签约系统所取代。通过将iPad与大屏幕结合，销售业绩军令状的签署仪式变得更加富有创意和科技感，极大地提升了活动的效率和参与感。下面将介绍如何利用这一高效的签约解决方案，通过软件实现iPad与大屏幕的无缝连接，打造一场充满仪式感的签署现场。一、销售业绩军令状活动背景销售军令状签署仪式通常用于企业在新年度开
轻舟活动云 2024-09-14

明太祖为什么要把自己的名字从“朱兴宗”改成“朱元璋”？

了解历史的朋友应该知道，明太祖朱元璋最早的名字叫“朱重八”，“朱元璋”是明太祖起兵壮大之后改的名字。但鲜为人知的是，除了“朱重八”和“朱元璋”这两个名字中间，明太祖还有一个名字叫“朱兴宗”。那么明太祖为什么要把自己的名字从“朱兴宗”改成“朱元璋”呢？本鬼接下来说说一家之言。首先要说明的是，对于明太祖使用“朱兴宗”这个名字的时间如今是存在争议的，有部分观点认为“朱兴宗”是明太祖登基后改的名字，时间在“朱元璋”之后。不过根据对史料记载的分析和明朝洪武年间的避讳，本鬼个人认为“朱兴宗”的时间在“朱重八”和“朱元

御鬼人 2024-09-14

敏感数据如何保密：2024年备受关注的十款保密软件/加密软件分享
在数字化时代，保护敏感数据变得愈发重要。数据泄露和隐私侵犯对个人和企业都可能带来严重后果。为了帮助大家有效地保密敏感数据，本文将介绍2024年备受关注的十款保密软件/加密软件。让我们来看看这些工具如何帮助你维护数据安全。 [图片] 1. Ping32 Ping32 是一款专注于数据保护和防泄漏的工具。它不仅可以提供无感知加密，还提供了数据防护的功能。Ping32 支持多种加密方式，通过对关键词或正则表达式的敏感词设置进行针对性加密。此外，还支持敏感词拦截、访问权限控制、外发文件管控、水印管控、禁止截屏录像
安在软件 2024-09-14

公章抠图工具：4个抠图软件，一键抠出图上片的印章

在日常工作中，有时我们需要从图片或文档中抠出公章，无论是为了签署电子合同还是制作数字文件，这类操作都十分常见。今天，我将向你介绍4款简单易用的公章抠图工具，它们能帮助你快速高效地从图片中抠出印章。1. 嗨格式抠图大师——智能识别，精准抠图嗨格式抠图大师是一款基于人工智能的抠图工具，能够自动识别图片中的主要元素并将其分离出来。特别适合需要快速抠图的场景，操作简单，非常适合办公人员使用。对于抠取公章，它的自动识别功能尤为实用，特别是当公章与背景对比明显时，嗨格式抠图大师能快速且精准地完成抠图任务。2. 酷雀A

嗨格式 2024-09-14

杂家、阴阳家、纵横家、农家哪里去了
中国传统文化中的各家思想流派各有千秋，他们深刻影响了中国古代社会的方方面面。但随着历史进程的推进，各家思想流派已经不知去向，他们都去哪了呢？杂家思想，最重要的是《吕氏春秋》和《淮南子》。这些作品集合了几派学者的智慧结晶，所包含的思想不止一种，我们可以在这些书上获取到各派思想的补充说明。阴阳家的著作早已经失传，不过阴阳家的理论在其他流派的书籍中有零星的记载。其中关于“术数”和“方技”（医药）的书籍，基于上都是依据阴阳家的理论而来。例如《黄帝内经》是医家假借黄帝名义而写成的病理学，就是阴阳家学说的具
心可光明 2024-09-13

V2X功能测试-测试用例开发
V2X功能测试-测试用例开发 [图片]
上海北汇信息科技 2024-09-14

意识和境界聊五块钱的系列道德经2
动物凭本能去做事情，饿了要吃，困了要睡，发情了拼命找个异性交配。不会意识到自己在做什么事，更不用提理解所做的事情及其所带来的意义。人不同于动物，人在做一件事的时候，知道自己在做什么事，并且意识到在做这件事。正是这种理解和自我意识让人感受体验到他做这件事的意义和价值，这个意义当然是在做这件事情的原因目的结果之上。比如一个人出去散会儿步，比较闷是原因，目的是散心，结果是有助于身体健康，心情愉悦。意义就是在当下情境下他有意识地选择去做了这样一件让他有体验感能受益的事。人的各种行动及其产生关联的人的沟通交际和各
常可道的道 2024-09-13

触手可及的酋长、红箭-8、M48及各类试验车型
在《距离接触中国仅有的一台酋长主战坦克》文章发布后，有小伙伴提醒，在小区另一侧还有一个展示区，里面有M48巴顿等坦克装甲车辆（在此感谢下热心读者）。 [链接] [图片] 在拖更了很久后，我终于挤出时间可以去为大家拍照了。首先补一张酋长主战坦克的照片。 [图片] 首先是位置介绍：该展示区位于北京市丰台区长辛店公路街甲12号，紧邻北方车辆研究所。在百度地图上直接搜槐树岭4号院即可，由于是家属区，并不需要出入证。展示区一：进大门后直走，看到医院后右转，坦克就在前方道路右侧。 [图片] 展示区二：在小区内搜索桃
lancer1117 2024-09-13

英语期刊论文投稿为何选择IThenticate查重
[图片] 发表一篇英语论文，我发现很多人在准备向期刊投稿之前，都会选择使用IThenticate查重系统对论文进行相似性检测。是什么魔力，让这个查重工具让投稿者如此偏爱使用它查重呢？一、什么是IThenticate查重系统？在了解它被偏爱的原因之前，让我们先来了解一下IThenticate查重系统吧。IThenticate是由国际知名出版社和数据服务公司开发的，是一款国际上备受认可的查重工具，它拥有庞大的数据库和精准的匹配算法。它的查重功力深厚，能把你论文里那些隐藏在各种犄角旮旯的“抄袭痕迹”都给翻
柠檬橙子乳酸菌 2024-09-14

ECCV'24开源 | 加速30%！ToC3D：让基于ViT的多视图3D检测器更快

推荐体验

近期资讯

销售业绩军令状：通过软件，将iPad与大屏完美结合的创意签署现场

明太祖为什么要把自己的名字从“朱兴宗”改成“朱元璋”？

敏感数据如何保密：2024年备受关注的十款保密软件/加密软件分享

公章抠图工具：4个抠图软件，一键抠出图上片的印章

杂家、阴阳家、纵横家、农家哪里去了

V2X功能测试-测试用例开发

意识和境界聊五块钱的系列道德经2

触手可及的酋长、红箭-8、M48及各类试验车型

英语期刊论文投稿为何选择IThenticate查重

南京依维柯“星火计划”启动：初心如炬为用户而来

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响