CVPR2023 Transformer论文合集

作者：AMiner科技发布时间：2023-05-19

国际计算机视觉与模式识别会议（CVPR）是计算机科学领域中的顶级会议之一，也是图像处理、机器学习、人工智能等多个领域的交叉学科会议。

每年的CVPR会议都会有大量的论文投稿和学术交流活动，其中涵盖了包括图像处理、计算机视觉、模式识别、机器学习、深度学习、人工智能等多个研究方向，是该领域最具有影响力和代表性的学术会议之一。

AMiner通过AI技术，对 CVPR2023 收录的会议论文进行了分类整理，今日分享的是Transformer主题论文，共78篇，我们在这里展示十篇最受欢迎的论文，欢迎下载收藏！

1.Neighborhood Attention Transformer
作者：Ali Hassani,Steven Walton,Jiachen Li,Shen Li,Humphrey Shi
链接：https://www.aminer.cn/pub/6258e26c5aee126c0fbc7ceb/
AI综述（大模型驱动）：我们提出了Neighborhood Attention(NA),这是第一种有效的和可扩展的窗户注意机制。

2.RGB no more: Minimally-decoded JPEG Vision Transformers
作者：Jeongsoo Park,Justin Johnson
链接：https://www.aminer.cn/pub/6386c9e790e50fcafdfa1200/
AI综述（大模型驱动）：大多数感知器神经网络都设计用于用彩色图像推理。然而,这些彩色图像通常是在JPEG上解码的;解码他们意味着具有不可避免的转换。因此,我们的工作侧重于直接从吉普卡解码的特征中训练视觉翻译器(ViT)。这样,我们就可以避免大部分解码,加快数据处理。现有的工作已经研究了这一点,但它们集中在美国有线电视新闻网上。由于这些编码特征是如何编码的,美国有线电视新闻网需要对他们的结构进行重大修改。在这里,我们表明,这不是VIST的情况。此外,我们直接针对这些编码特征的data augmentation解决了数据扩展。与这些两次改进,我们证明了我们的方法可以提高到39.2%的训练速度和17.9%的推理精度。

3.EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention
作者：Xinyu Liu,Houwen Peng,Ningxin Zheng,Yuqing Yang,Han Hu,Yixuan Yuan
链接：https://www.aminer.cn/pub/645dad16d68f896efad9df53/
AI综述（大模型驱动）：本文提出了一种名为EfficientViT的高速可视化Transformer家族。我们发现,现有的Transformer模型的速度通常与内存不均等操作有关,特别是在MHSA中,Tensor Reshaping和元素 wise函数。因此,我们设计了一个新的建筑块,采用一个单独连接有效的FFN层之间的一小部分内存,提高内存效率,同时改善通道通信。为了解决这个问题,我们提出了一个 cascading小组关注模块,结合了整个特征的不同分段,不仅可以节省计算成本,而且可以提高注意的多样性。实验结果表明,EfficientViT在精度和准确性方面优于现有的有效模型,并且具有良好的竞争优势。

4.Mask3D: Pre-training 2D Vision Transformers by Learning Masked 3D Priors
作者：Ji Hou,Xiaoliang Dai,Zijian He,Angela Dai,Matthias Nießner
链接：https://www.aminer.cn/pub/63fec3ce90e50fcafdd70808/
AI综述（大模型驱动）：我们提出了一种用于将高分辨率感知器嵌入二维图的加权自适应学习框架的新方法。该算法利用了现有的大型射影成像数据,并将这些先验纳入了学习到的二维特征表示。与传统的三维透镜学习范式需要3D重建或多个视角对应的传统方法不同,我们的方法非常简单:我们在单个色调和深层补丁中掩盖每个片段的蓝色光束。我们证明,基于加权自适应的学习框架特别有效地将3D先验纳入二维图的强大支持向量机,帮助各种场景理解任务提高解析学习。实验表明,基于加权自适应的学习框架在ScanNet、NYUv2和Cityscapes等领域表现最好的自我监督训练方法之一。

5.OneFormer: One Transformer to Rule Universal Image Segmentation
作者：Jitesh Jain,Jiachen Li,MangTik Chiu,Ali Hassani,Nikita Orlov,Humphrey Shi
链接：https://www.aminer.cn/pub/6371b1a090e50fcafdb2e5d7/
AI综述（大模型驱动）：我们提出了一种新的图分割框架,该框架将分割与一个多任务训练一次的设计统一起来。我们首先提出了一个任务条件的联合训练策略,该策略允许在单个多任务培训过程中对每个域(语义、实例和矩阵分割)的 ground truth进行训练。其次,我们提出了使用查询文本相似损失进行训练,以建立更好的任务和任务之间的区别。我们发现,在所有三项任务中,单个原始模型在所有三个任务中都优于最先进的基线。

6.Vision Transformers are Parameter-Efficient Audio-Visual Learners
作者：Yan-Bo Lin,Yi-Lin Sung,Jie Lei,Mohit Bansal,Gedas Bertasius
链接：https://www.aminer.cn/pub/639be1d090e50fcafd578d50/
AI综述（大模型驱动）：我们研究了冷冻维特的扩展能力,仅依赖于视觉数据来训练。为了实现这一点,我们提出了一种潜在声学图像混合器,该方法使用少量可调参数对各种声音和视频线索进行适配。与现有的基于模块化的音频信息方法相比,我们的方法实现了竞争或甚至优于以前的方法。我们的方法利用了少量的可调参数,而无需借助昂贵的噪声培训或外部声音编码器。

7.DeepVecFont-v2: Exploiting Transformers to Synthesize Vector Fonts with Higher Quality
作者：Yuqing Wang,Yizhi Wang,Longhui Yu,Yuesheng Zhu,Zhouhui Lian
链接：https://www.aminer.cn/pub/64225b7690e50fcafde120e9/
AI综述（大模型驱动）：本文提出了一种改进的deepvecfont,通过采用Transformers而不是RNNs来处理顺序数据,并设计了向量轮廓的放松表示,显著提高了模型在合成长而复杂轮廓的能力和稳定性。此外,作者还提出了一个基于上下文的自优化模块,以避免序列生成过程中出现的错误积累。这些结果表明,所提出的方法有效地解决了原始deepvecfont的固有问题,并超过了生成复杂结构和异质风格的现有方法。

8.An Empirical Study of End-to-End Video-Language Transformers with Masked Visual Modeling
作者：Tsu-Jui Fu,Linjie Li,Zhe Gan,Kevin Lin,William Yang Wang,Lijuan Wang,Zicheng Liu
链接：https://www.aminer.cn/pub/63180be590e50fcafded42ad/
AI综述（大模型驱动）：视频语言(vidL)培训中使用隐形图像建模的重新训练。然而,以前的研究无法在训练前通过MVM改进原始视频特征。在本文中,我们系统地研究了MVM在vidL学习的潜力。具体来说,我们将我们的研究基于一个完全终端的维罗伊特变换器(维伊特)来研究不同重建目标。在整个工作中,我们展示了从低级别的图像值和向导曲线增长到高级别的深层地图、光流、隐式视觉标记和潜在的图形特征。我们进行了全面的实验,并提供对影响有效MVM训练的因素的洞察。实证结果表明,在13个vidL基准上,与原始训练基准相比,维奥莱特的预训练实现了显著的改进。

9.BiFormer: Vision Transformer with Bi-Level Routing Attention
作者：Lei Zhu,Xinjiang Wang,Zhanghan Ke,Wayne Zhang,Rynson Lau
链接：https://www.aminer.cn/pub/641289ec90e50fcafd7d475e/
AI综述（大模型驱动）：我们提出了一种新的动态稀疏注意的双级通用方法。该方法利用了感知器的稀疏性来节省计算和存储资源。例如,对于查询,不相关的关键值对被过滤出细粒度区域级别,然后在剩下的候选地区中应用粗略的标记注释。我们提供了一个简单的但有效的实施方案,该方案使用了感知器的稀疏性来节省计算和存储资源。

10.Graph Transformer GANs for Graph-Constrained House Generation
作者：Hao Tang,Zhenyu Zhang,Humphrey Shi,Bo Li,Ling Shao,Nicu Sebe,Radu Timofte,Luc Van Gool
链接：https://www.aminer.cn/pub/641289e790e50fcafd7d3ea3/
AI综述（大模型驱动）：我们提出了一种新的图变换器生成敌对网络(GTGAN)来学习高效的图节点关系。该提出的图变换器的引理器包括一个新的图变换器编码器,它将三角形转换和自我注意相结合,以模拟连接和非连接节点之间的局部和全局互动。特别地,考虑了在输入图中捕捉到连接和非连接节点的全球关系,以及在输出图中捕捉到连接和非连接节点的全球关系。提出了一种基于分块的图建模框架(GMB),旨在利用基于室内布局原则的局部矩阵交互。

想查看全部Transformer论文，可以点击下方链接：

https://www.aminer.cn/conf/5eba43d8edb6e7d53c0fb8a1/CVPR2023