用预训练Transformer太好发文了！零样本无训练也能发顶会！何恺明都在抢着发！

作者：深度之眼官方账号发布时间：2024-10-12

何恺明团队新作大家关注了没？全新的异构预训练Transformer（HPT）模型！不用从头训练，即可破解通用机器人模型异构性难题，性能暴涨20%+！

这项工作已经被NeurIPS 2024接收为Spotlight，除此之外，还出现了很多预训练Transformer的新研究，比如CVPR 2024的零样本令牌剪枝方法Zero-TPrune，也无需训练就能实现低成本高性能。

可见当下对预训练Transformer的研究热情依旧不减，它强大的语言理解、丰富的表示、高效的迁移与计算等能力，也在诸多任务中得到了广泛的应用。

目前这个先进的技术还在不断发展中，留给论文er的创新空间也比较大，为了帮助大家快速找到思路，我这边整理好了10篇预训练Transformer参考论文，基本都是最新且有代码，有需要的同学可无偿获取~

扫码添加小享，回复“预训练T”

免费获取全部论文+开源代码

Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers

方法：作者通过异构预训练在不同机器人体现和任务上学习策略表示，提出异构预训练变换器（HPT），其通过对策略神经网络的共享部分进行预训练，学习任务和体现无关的共享表示，在多个模拟基准和现实环境中，与基线相比，HPT在未见任务的微调策略性能上提高了20%以上。

创新点：

提出了一种名为HPT的新方法，通过在不同机器人硬件和任务的大规模数据上进行异构预训练，学习到一个通用的策略表示。
HPT将策略网络架构模块化，包括特定于硬件的“stem”（用于处理不同硬件的感官输入），共享的“trunk”（Transformer结构，用于处理感官表示并学习输入输出关系），以及特定于任务的“head”（用于将潜在表示映射到动作空间）。

Zero-TPrune: Zero-Shot Token Pruning through Leveraging of the Attention Graph in Pre-Trained Transformers

方法：论文提出了一种无需训练的零样本token剪枝方法Zero-TPrune，利用加权PageRank算法从注意力图中推导token重要性，并结合相似性剪枝，以提升视觉Transformer模型在ImageNet上的性能，这种方法利用了预训练Transformer模型中的注意力图来执行令牌剪枝，以减少模型在边缘设备上部署时的推理成本。

创新点：

提出了Zero-TPrune，这是一种无需训练的零样本令牌剪枝方法，它利用预训练的Transformer模型的注意力图来评估令牌的重要性和相似性，从而实现剪枝。
引入了一种新的算法——加权页面排名，用于在迭代过程中基于注意力图分配令牌的重要性得分，有效降低了不重要令牌的干扰。
通过重要性分布指导的令牌分割和基于相似性的剪枝，提高了剪枝过程的稳定性和准确性，同时减少了计算开销，使得模型能够在不需要微调的情况下快速切换不同的剪枝配置。

扫码添加小享，回复“预训练T”

免费获取全部论文+开源代码

xTrimoPGLM: unified 100B-scale pre-trained transformer for deciphering the language of protein

方法：论文提出了一个名为xTrimoPGLM的新型预训练模型，这是一个针对蛋白质语言的大规模Transformer模型，结合了双向自注意力和自回归目标，通过在大规模数据集上的训练，提升了对蛋白质序列的理解能力和生成新蛋白质序列的能力。

创新点：

提出了一个名为xTrimoPGLM的统一蛋白质语言模型，能够同时处理蛋白质理解和生成（的任务。
xTrimoPGLM模型在100亿参数规模和1万亿训练令牌上进行训练，显著提高了在多个蛋白质理解基准测试中的性能。
开发了基于xTrimoPGLM的高性能3D结构预测工具xTrimoPGLM-Fold，它在预测精度和计算效率方面都取得了显著的成果，为蛋白质结构预测领域提供了新的工具。