基于Transformer的强化学习新突破！2大创新思路学到就是赚到！

作者：迪哥教人工智能发布时间：2024-08-14

基于Transformer的强化学习（TRL）是一种利用Transformer模型架构来改进和增强强化学习算法性能的方法。

这种方法通过结合Transformer模型强大的表示能力和强化学习的决策优化框架，显著提升了智能体的学习能力和适应能力，为我们解决复杂环境下的决策问题提供了新的思路，因此也被广泛应用于各大领域。

目前，TRL主要有两大发展方向：架构增强、轨迹优化。

架构增强：通过改进Transformer的架构来提高强化学习模型的性能。

轨迹优化：使用Transformer来优化强化学习中的轨迹数据，以更好地建模人类偏好和非Markovian奖励。

今天我从这两大方向入手，分享29篇TRL的代表性成果，为方便同学们理解，这其中还包含了TRL在自动驾驶等主要领域的热门应用，希望对大家找idea有所帮助

论文+源码我都打包好了，扫码回复“888”自取
将Transformer结构融入强化学习框架，以提升对状态、动作和历史信息的建模能力，从而精确地表示智能体与环境间的复杂关系。

代表性论文：

Coberl: Contrastive bert for reinforcement learning

方法：COBERL是一种结合了对比学习与架构改进的新型强化学习代理，通过自监督学习目标和LSTM与transformer的组合，提高了数据效率并在各种环境中取得了改进的性能。

创新点：

（1）引入了一种新颖的对比表示学习目标，该目标将 BERT 的掩码预测与 RELIC 在时间域上的泛化相结合，提高了数据效率，并消除了对手动设计数据增强的需求。

（2）将门控 Transformer-XL（GTrXL）架构与 LSTM 相结合，使用通过强化学习损失训练的门控，有效地整合了Transformer和 LSTM 的优势，以改善强化学习任务中的性能。

2.轨迹优化

利用Transformer的优势从静态数据集中提取策略，将强化学习的目标转向对整个轨迹的优化，以实现更高效的样本利用率和策略学习。

代表性论文：

StARformer: Transformer with State-Action-Reward Representations for Visual Reinforcement Learning

方法：本文介绍了StARformer，这是一种在视觉强化学习中显式建模强局部关系，以改善长期序列建模的模型。通过广泛的实证结果，作者展示了学习到的StAR表示如何帮助我们的模型超越基准，并成功地对轨迹进行建模，特别是对长序列的强调。

创新点：

（1）StARformer通过Step Transformer明确地对强大的局部关系进行建模，以帮助改进Visual RL中的长期序列建模。这种明确建模局部关系的方法使得StARformer能够超越基线模型，并成功地对长序列进行建模。

（2）StARformer通过在每个对应层中将StAR-representations g和纯状态表示h进行层间连接的方式，对整个轨迹进行建模。在Sequence Transformer中，StAR-representations和纯状态表示的融合有助于更好地捕捉短期和长期的上下文信息，从而提高序列建模的效果。

3，应用

LATTE: LAnguage Trajectory TransformEr

方法：本文提出了一个灵活的基于语言的人机交互界面，允许用户修改现有的机器人轨迹。该方法利用预训练的大型语言和图像模型（BERT和CLIP）从自由格式的文本输入和场景图像中直接编码用户的意图和目标对象，融合由Transformer编码器网络生成的几何特征，并使用Transformer解码器输出轨迹。