国际表征学习大会(International Conference on Learning Representations,简称 ICLR)是深度学习领域的顶级会议,关注有关深度学习各个方面的前沿研究,在人工智能、统计和数据科学领域以及机器视觉、语音识别、文本理解等重要应用领域中发布了众多极其有影响力的论文。
AMiner通过AI技术,对 ICLR2023 收录的会议论文进行了分类整理,今日分享的是Transformer主题论文,共69篇,我们在这里展示十篇最受欢迎的论文,欢迎下载收藏!
1. In-context Reinforcement Learning with Algorithm Distillation
作者:Michael Laskin,Luyu Wang,Junhyuk Oh,Emilio Parisotto,Stephen Spencer,Richie Steigerwald,DJ Strouse,Steven Hansen,Angelos Filos,Ethan Brooks,Maxime Gazeau,Himanshu Sahni,Satinder Singh,Volodymyr Mnih
AI综述(大模型驱动):我们提出了算法提取(AD),一种将强化学习算法的神经网络投影到神经网络中的方法。该算法利用因果序列模型将训练历史建模为一项跨episode的连贯预测问题。生成的训练历史数据集通过源LR算法生成,然后由反向推理训练的因果转换训练。我们证明,AD在各种环境中可以学习具有较少的奖金、组合任务结构和图像的强化算法,并发现AD学习了一个比源数据收集的数据更快的数据效率的RL算法。
论文链接:https://www.aminer.cn/pub/6358a57090e50fcafda59fe0/
2. Language Modelling with Pixels
作者:Phillip Rust,Jonas F. Lotz,Emanuele Bugliarello,Elizabeth Salesky,Miryam de Lhoneux,Desmond Elliott
AI综述(大模型驱动):基于图的语言建模本文介绍了基于图的分层编码器PIXEL,它将文本视为图像,并将其转换为图形。PIXE支持多种语言,包括英语、德语、法语、韩语、西班牙语、捷克语、挪威语、瑞典语、乌尔都语和泰耳语。此外,它还比伯特·贝特表现出更鲁棒的语言处理能力。
论文链接:https://www.aminer.cn/pub/62d0db155aee126c0f9f1014/
3. Specformer: Spectral Graph Neural Networks Meet Transformers
作者:Deyu Bo,Chuan Shi,Lele Wang,Renjie Liao
AI综述(大模型驱动):特征图神经网络通过光谱域图变换学习图表示。然而,大多数现有的色谱图过滤器都是成对数线性函数,即将单个属值映射到一个过滤出的值。此外,这些过滤器的建模往往基于一些固定顺序多项式,这限制了表达能力和灵活性。为了解决这个问题,我们引入了斯科特生成器,它有效地编码了所有属值,并在光谱领域进行自我注意,从而产生了一个可学习的一组分组光谱过滤器。我们还设计了一个解码器,以便允许非局部图转换。
论文链接:https://www.aminer.cn/pub/63dcdb422c26941cf00b620d/
4. MaskViT: Masked Visual Pre-Training for Video Prediction
作者:Agrim Gupta,Stephen Tian,Yunzhi Zhang,Jiajun Wu,Roberto Martín-Martín,Li Fei-Fei
AI综述(大模型驱动):基于隐形图像建模的视频预测模型我们提出了一种新的视频预测方法,该方法基于两个简单的设计决策。
论文链接:https://www.aminer.cn/pub/62b52c635aee126c0f459d9a/
5. Relational Attention: Generalizing Transformers for Graph-Structured Tasks
作者:Cameron Diao,Ricky Loynd
AI综述(大模型驱动):本文描述了一种用于对图结构化数据进行推理的关系转换器。该变体在各种图结构化的任务上表现出优于最先进的基于字符串的机器学习算法。我们评估了这种关系转换器的性能,并表明它比最先进的基于字符串的机器学习算法具有更好的表达能力。
论文链接:https://www.aminer.cn/pub/6346305790e50fcafda0574e/
6. Encoding Recurrence into Transformers
作者:Feiqing Huang,Kexin Lu,Yuxi CAI,Zhen Qin,Yanwen Fang,Guangjian Tian,Guodong Li
AI综述(大模型驱动):本文将基于记忆的重新编码转换为一个带有持续性的模块。该模块利用了连续感知传感器的强制反射波动来实现优异的 Sample效率,而自我注意则用于建模剩余的非重复脉冲信号。提出了一种新的RSA系统,该系统可有效地集成到多个头部自视学习器中。该系统的性能是通过四次随机学习任务证明的。
论文链接:https://www.aminer.cn/pub/63dcdb422c26941cf00b6048/
7. What learning algorithm is in-context learning? Investigations with linear models
作者:Ekin Akyürek,Jacob Andreas,Dale Schuurmans,Tengyu Ma,Denny Zhou
AI综述(大模型驱动):神经序列模型具有良好的上下文学习能力。它们可以从标记示例中构建新的预测器,而不需要进一步的参数更新。我们研究了这一假设的理论,即变换器通过编码隐藏的特征模板对标准学习算法进行约束,并将这些隐藏模型作为新示例出现的时 Update这些隐藏模型。使用线性退火作为模型问题,我们提供了三种证据证明这种假设。首先,我们证明通过构造,可以基于梯度上升和关闭形式计算退回参数的学习算法。其次,我们表明,在语义上训练的受试者与矩阵倾斜、角落重叠和最小方位重叠的相似之处非常吻合。最后,我们提出了初步的证据,即在语义上训练的受试者与这些预测器的算法特性共享算法的特征。
论文链接:https://www.aminer.cn/pub/63dcdb422c26941cf00b6052/
8. A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
作者:Yuqi Nie,Nam H. Nguyen,Phanwadee Sinthong,Jayant Kalagnanam
AI综述(大模型驱动):我们提出了一种高效的基于变形器的时间系列预测和自我监督表示学习模型的新型设计。
论文链接:https://www.aminer.cn/pub/6385788490e50fcafdf4998e/
9. Are More Layers Beneficial to Graph Transformers?
作者:Haiteng Zhao,Shuming Ma,Dongdong Zhang,Zhi-Hong Deng,Furu Wei
AI综述(大模型驱动):在本文中,我们探讨了增强图转换器的好处,并发现目前的图转换器存在提高性能瓶颈的压力。我们的进一步分析揭示了这一原因的原因,即深层图转换器受全球注意力的衰退能力限制,这使得图转换器无法专注于重要的子结构,而只能获得表达性特征。为了完成这一点,我们提出了一种称为DeepGraph的新图转换模型,该模型明确地使用解码中的副结构标记,并应用局部注意力对相关节点进行句法编码。我们的模型增强了对全局关注集中焦点的能力,促进了表示的可行性,解决了自我注意限制的问题。实验表明,我们的方法不阻碍图转换器的深度限制,并在与更浅型模型相同的基线上实现了最先进的性能。
论文链接:https://www.aminer.cn/pub/63dcdb422c26941cf00b649f/
10. Efficient Attention via Control Variates
作者:Lin Zheng,Jianbo Yuan,Chong Wang,Lingpeng Kong
AI综述(大模型驱动):随机启发式注意是高效的近似软马尔可夫注意。然而,传统的软马尔可夫注意和感知之间的近似差距尚未研究过。基于以前的先河,我们通过控制变换器描绘了这一缺口,并表明透析可以分解为每个节点中的多个控制变换估计器的总数。这项新框架揭示了从透析中恢复精确的软马尔可夫注意的能力。除了此之外,它允许我们开发一种更灵活的控制变换形式,从而产生了一个新的注意机制,该机制大幅减少了近似误差,同时保持线性复杂度。实验证实了我们的模型优于目前最先进的高效感知系统。
论文链接:https://www.aminer.cn/pub/63dcdb422c26941cf00b606e/
想查看全部Transformer论文,可以点击下方链接:
https://www.aminer.cn/conf/5ea1d518edb6e7d53c0100cb/ICLR2023