当前位置:首页|资讯|机器学习|深度学习|人工智能

CVPR2023 目标检测论文合集

作者:AMiner科技发布时间:2023-05-23

国际计算机视觉与模式识别会议(CVPR)是计算机科学领域中的顶级会议之一,也是图像处理、机器学习、人工智能等多个领域的交叉学科会议。

每年的CVPR会议都会有大量的论文投稿和学术交流活动,其中涵盖了包括图像处理、计算机视觉、模式识别、机器学习、深度学习、人工智能等多个研究方向,是该领域最具有影响力和代表性的学术会议之一。

AMiner通过AI技术,对 CVPR2023 收录的会议论文进行了分类整理,今日分享的是目标检测主题论文,共49篇,我们在这里展示十篇最受欢迎的论文,欢迎下载收藏!

1.Detecting Everything in the Open World: Towards Universal Object Detection
作者:Zhenyu Wang,Yali Li,Xi Chen,Ser-Nam Lim,Antonio Torralba,Hengshuang Zhao,Shengjin Wang
链接:aminer.cn/pub/641a71fb9
AI综述(大模型驱动): 在本文中,我们形式上解决了全局感知器检测。它的目标是detect每个场景并预测每一个类别。对人类注释的依赖性、有限的视觉信息和开放世界的新类别的限制使传统探测器的通用性受到限制。

2.Adaptive Sparse Convolutional Networks with Global Context Enhancement for Faster Object Detection on Drone Images
作者:Bowei Du,Yecheng Huang,Jiaxin Chen,Di Huang
链接:aminer.cn/pub/64225b759
AI综述(大模型驱动):用于高精度无人机图像的高效稀疏转换网络本文研究了利用稀疏转换来优化探测头。尽管如此,它还存在对小物体和局部信息的不合适集成以及背景下方动态的粗糙控制。为了解决这些问题,我们提出了一种新的全局上下文增强适应性稀疏变分网络(CEAC)。它首先开发了一个上下文增强集体规范化(CEGN)层,通过将基于稀疏样本特征的统计数据替换为全局上下文特征的统计数据,然后设计了一种适配多层掩盖策略,以产生不同的高度,在不同大小的前景覆盖范围内产生最优遮瑕率。实验结果证实了该网络的显著降低GHLPs和加快推理过程。 

3.Detection Hub: Unifying Object Detection Datasets via Query Adaptation on Language Embedding
作者:Lingchen Meng,Xiyang Dai,Yinpeng Chen,Pengchuan Zhang,Dongdong Chen,Mengchen Liu,Jianfeng Wang,Zuxuan Wu,Lu Yuan,Yu-Gang Jiang
链接:aminer.cn/pub/62a0137a5
AI综述(大模型驱动): 在多个数据集上训练聚类探测器可以显著提高计算机视觉任务的性能。然而,当在一个数据集下训练一个聚类探测器时,这种协同训练会带来两个主要障碍:分类差异和边界框架注释不一致。本文表明,通过将每个数据集的语言嵌入到每个聚类中进行动态调整,就可以有效地解决了这些两个挑战。我们设计了一个检测中心来根据不同数据集分布对分类问题做出选择。与以前的方法相比,我们的改进方法可以利用分类器的语义中心作为公共类别的语义中心,而学习对特定类别属性的语义偏好来处理注释差异,并生成领域 Gaps。这些新的改进使得我们能够同时训练一组单独精确校准器以充分享受他们的优点。 

4.What Can Human Sketches Do for Object Detection?
作者:Pinaki Nath Chowdhury,Ayan Kumar Bhunia,Aneeshan Sain,Subhadeep Koley,Tao Xiang,Yi-Zhe Song
链接:aminer.cn/pub/64225b7d9
AI综述(大模型驱动):本文首次开发了一种基于素描的图像检索框架。结果是一个基于素描的图像检测框架。该框架不需要(i)知道测试的类别和(ii)需要额外指定标签和类别标记。 Instead,我们证明了两种基本模型之间的直觉结合,可以有效地解决CLIP的问题,并为图像检索提供模型推广。在标准的图像检测数据集上评估我们的框架表现优于监督和弱监督对象检测器。 

5.Mask DINO: Towards A Unified Transformer-based Framework for Object Detection and Segmentation
作者:Feng Li,Hao Zhang,Huaizhe xu,Shilong Liu,Lei Zhang,Lionel M. Ni,Heung-Yeung Shum
链接:aminer.cn/pub/629ec2145
AI综述(大模型驱动):基于特征的聚类算法,我们提出了一种新的聚类框架。该框架通过在ResNet50基线和 SwinL基线上对数千万个参数进行训练,优于所有现有的特殊分割方法。我们的实验表明,基于特征的聚类算法可以显著提高现有最先进的分割技术水平。 

6.Consistent-Teacher: Towards Reducing Inconsistent Pseudo-targets in Semi-supervised Object Detection
作者:Xinjiang Wang,Xingyi Yang,Shilong Zhang,Yijiang Li,Litong Feng,Shijie Fang,Chengqi Lyu,Kai Chen,Wayne Zhang
链接:aminer.cn/pub/63180be59
AI综述(大模型驱动):在本文中,我们深入研究了半监督物探测器中面临的挑战。我们观察到,1)目前的探测器的一般分配政策对标记噪声很敏感。2)任务不一致,即常规分配政策较敏感,在相同的特征点上进行分类和逆转预测被同时推断。这些问题导致了学习者网络不一致的优化目标,从而恶化了性能,并加快了模型融合。我们提出了一种称为一致的老师系统,该系统在大量Ssod评估中获得了41.0 mAP的性能。

7.Phase-Shifting Coder: Predicting Accurate Orientation in Oriented Object Detection
作者:Yi Yu,Feipeng Da
链接:aminer.cn/pub/6371b1a79
AI综述(大模型驱动):本文提出了一种新的分辨率变换切分器,名为时隙移动解码器(PCS)。该解码器的两极频率版本是PSCD。通过将不同循环的旋转顺序映射到不同的时隙时隙,我们提供了一种统一的基于时隙的概率推理问题框架。在基于这种框架下,以oriented object detection的一般问题,如边界 discontinuity和等效等,得到了完美的解决。在三个数据集上的分析和实验证明了该方法的有效性和潜力。

8.CAT: LoCalization and IdentificAtion Cascade Detection Transformer for Open-World Object Detection
作者:Shuailei Ma,Yuefeng Wang,Jiaqi Fan,Ying Wei,Thomas H. Li,Hongli Liu,Fanbing Lv
链接:aminer.cn/pub/640015f39
AI综述(大模型驱动):本文提出了一种新的基于LoCal的高效无监督聚类探测器。该方法将模型驱动与输入驱动的PLM相结合,并通过交叉解码算法生成鲁棒标记。在两次基线数据集上的广泛实验表明,我们的模型优于所有在OWOD任务中使用的统计指标。我们提出了一个自适应的伪标记机制,它融合了模型驱动和输入驱动的PLM,并独立地为未知物创建鲁棒标记。 

9.MixTeacher: Mining Promising Labels with Mixed Scale Teacher for Semi-Supervised Object Detection
作者:Liang Liu,Boshen Zhang,Jiangning Zhang,Wuhao Zhang,Zhenye Gan,Guanzhong Tian,Wenbing Zhu,Yabiao Wang,Chengjie Wang
链接:aminer.cn/pub/6413dabe9
AI综述(大模型驱动):我们提出了一种新的半监督标记生成框架。该框架通过引入一个混合质量老师来提高基于质量的标记生成和模块化学习。此外,我们提出了使用分布相似性度量在模块级别上推广预测,这优于来自单个质量特征的最佳预测。我们的广泛的实验表明,该方法达到了最先进的性能水平。 

10.DetCLIPv2: Scalable Open-Vocabulary Object Detection Pre-training via Word-Region Alignment
作者:Lewei Yao,Jianhua Han,Xiaodan Liang,Dan Xu,Wei Zhang,Zhenguo Li,Hang Xu
链接:aminer.cn/pub/6434cfd69
AI综述(大模型驱动):本文介绍了DetCLIPv2,一个有效的和可扩展的训练框架,结合大规模图像文本对进行开放词性标记(OVD)。与以前的OVD框架相比,DetCLIPv2直接从大量图像文本对中学习细粒度字符区域对齐,从而提高了模型的局部化能力。该模型通过联合训练和采用低分辨率输入来有效地利用图像文本对数据,DetCLIPv2在相同的训练时间上比DetCLIPv2使用更多图像文本对,并且提高了性能。

想查看全部目标检测论文,可以点击下方链接:

https://www.aminer.cn/conf/5eba43d8edb6e7d53c0fb8a1/CVPR2023


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1