国际表征学习大会(International Conference on Learning Representations,简称 ICLR)是深度学习领域的顶级会议,关注有关深度学习各个方面的前沿研究,在人工智能、统计和数据科学领域以及机器视觉、语音识别、文本理解等重要应用领域中发布了众多极其有影响力的论文。
AMiner通过AI技术,对 ICLR2023 收录的会议论文进行了分类整理,今日分享的是强化学习主题论文,共108篇,我们在这里展示十篇最受欢迎的论文,欢迎下载收藏!
1. In-context Reinforcement Learning with Algorithm Distillation
作者:Michael Laskin,Luyu Wang,Junhyuk Oh,Emilio Parisotto,Stephen Spencer,Richie Steigerwald,DJ Strouse,Steven Hansen,Angelos Filos,Ethan Brooks,Maxime Gazeau,Himanshu Sahni,Satinder Singh,Volodymyr Mnih
AI综述(大模型驱动):我们提出了算法提取(AD),一种将强化学习算法的神经网络投影到神经网络中的方法。该算法利用因果序列模型将训练历史建模为一项跨episode的连贯预测问题。生成的训练历史数据集通过源LR算法生成,然后由反向推理训练的因果转换训练。我们证明,AD在各种环境中可以学习具有较少的奖金、组合任务结构和图像的强化算法,并发现AD学习了一个比源数据收集的数据更快的数据效率的RL算法。
论文链接:https://www.aminer.cn/pub/6358a57090e50fcafda59fe0/
2. Powderworld: A Platform for Understanding Generalization via Rich Task Distributions
作者:Kevin Frans,Phillip Isola
AI综述(大模型驱动):在 PowderWorld中,提供了两个激励挑战分布,一个用于世界建模和一个用于强化学习。每个分布包含手工设计的测试任务,以检查泛化。实验表明,环境的复杂性提高了世界模型和某些强化学习agent的泛化,但可能阻碍了在高 variance环境中学习。为了解决这个问题,我们提出了一种轻型但有表达能力的模拟环境。
论文链接:https://www.aminer.cn/pub/637ee0ee90e50fcafd0f709d/
3. Is Reinforcement Learning (Not) for Natural Language Processing?: Benchmarks, Baselines, and Building Blocks for Natural Language Policy Optimization
作者:Rajkumar Ramamurthy,Prithviraj Ammanabrolu,Kianté Brantley,Jack Hessel,Rafet Sifa,Christian Bauckhage,Hannaneh Hajishirzi,Yejin Choi
AI综述(大模型驱动):我们解决了将大型语言模型(LMs)与人类偏好的对齐问题。如果我们认为文本生成作为顺序决策问题的自然概念框架,强化学习(RL)似乎是一种自然的概念框架。然而,对于基于LM的生成器来说,这项任务面临的实证挑战,包括训练不稳定性以及缺乏开放资源和改进度量。
论文链接:https://www.aminer.cn/pub/633cf5cf90e50fcafd772ddd/
4. Sample-Efficient Reinforcement Learning by Breaking the Replay Ratio Barrier
作者:Pierluca D'Oro,Max Schwarzer,Evgenii Nikishin,Pierre-Luc Bacon,Marc G Bellemare,Aaron Courville
AI综述(大模型驱动):在本文中,我们证明了增强深度激励学习算法的样本效率的提高可以产生更好的重叠率扩展能力。我们将严格修改的算法训练到使用比通常使用的更少的更新量来训练它们,以最大限度地提高他们在Atari100k和DeepMind控制suite基准上的表现。然后,我们分析了需要为有利可图的重叠率扩展选择提出的缺陷,并讨论了固有的约束和权衡。
论文链接:https://www.aminer.cn/pub/63dcdb422c26941cf00b6077/
5. Extreme Q-Learning: MaxEnt RL without Entropy
作者:Divyansh Garg,Joey Hejna,Matthieu Geist,Stefano Ermon
AI综述(大模型驱动):我们描述了一种新的在线和 offline超大值学习规则,该规则直接使用极性价值理论(EVT)估计最大值。通过这样做,我们可以避免计算出分布式动作中使用的Q值,这通常是一种很大的错误来源。我们的关键洞察是引入一个目标,它可以直接在最大熵下估计最优软值函数(LogSumExp)。
论文链接:https://www.aminer.cn/pub/63bb859d90e50fcafd06ee06/
6. Evaluating Long-Term Memory in 3D Mazes
作者:Jurgis Pasukonis,Timothy Lillicrap,Danijar Hafner
AI综述(大模型驱动):我们介绍了记忆陋室,一种专门为评估战术人员的长寿能力的3D领域。与现有的基线相比,陋室测量长寿能力不同,需要 agent将信息融合并本地化。我们提出了一个在线激励学习基线,一个多种 offline数据集和 offline检验评估。
论文链接:https://www.aminer.cn/pub/635753d490e50fcafdddf445/
7. Sparse Q-Learning: Offline Reinforcement Learning with Implicit Value Regularization
作者:Haoran Xu,Li Jiang,Jianxiong Li,Zhuoran Yang,Zhaoran Wang,Victor Wai Kin Chan,Xianyuan Zhan
AI综述(大模型驱动):在标准数据集上训练聚类算法通常认为,当使用分布式变化进行决策时,会产生一些不确定性。我们提出了一种聚类算法,该算法利用了与CQL相同的值随机化,但使用少量手动注释的示例语料库。与IQL相比,我们发现我们的算法增加了学习价值函数的稀疏性,这使得它比IQL具有更快的收敛速度和更好的一致性。此外,我们还比较了聚类算法的优点和弱点,并将其与其他基线进行了比较。
论文链接:https://www.aminer.cn/pub/63dcdb422c26941cf00b6097/
8. Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning
作者:Zhendong Wang,Jonathan J Hunt,Mingyuan Zhou
AI综述(大模型驱动):offline reinforcement学习(RL),旨在学习一个有效的政策,使用以前收集的静态数据集,是RL的一个重要范畴。标准的RL方法通常在这一任务中表现不佳,因为在外部收集动作对齐错误造成的函数近似错误。然而,已经提出了许多适当的规则化方法来解决这个问题,但这些方法通常受到有限的表达能力限制,有时会导致几乎不optimal的解决方案。在本文中,我们提出了一种新的基于条件传播模型的动态调整算法,该算法利用了条件传播模板作为高度表达性的政策类。在我们的方法中,我们在决策损失中学习了一个决策值函数,并添加了一个最大化决策值的时间限制。我们表明,基于模型的政策的表达性和决策改善结合在一起,产生了卓越的性能。
论文链接:https://www.aminer.cn/pub/62fa0d1490e50fcafd2462dd/
9. Solving Continuous Control via Q-learning
作者:Tim Seyde,Peter Werner,Wilko Schwarting,Igor Gilitschenski,Martin Riedmiller,Daniela Rus,Markus Wulfmeier
AI综述(大模型驱动):我们提出了一种新的监督学习方法,该方法结合了动作分解和价值分解,并将单个agent控制应用于协同优化。我们证明了这种方法可以显著减少监督学习所需的复杂性。我们还将监督学习扩展到类似的协同学习,以便在各种监督任务中提供良好的性能。
论文链接:https://www.aminer.cn/pub/635753cc90e50fcafddddc66/
10. Priors, Hierarchy, and Information Asymmetry for Skill Transfer in Reinforcement Learning
作者:Sasha Salter,Kristian Hartikainen,Walter Goodwin,Ingmar Posner
AI综述(大模型驱动):在本文中,我们展示了如何利用信息熵来限制学习者的表达性和推理能力。这项研究表明,虽然信息熵对学习能力的影响很大,但对传理能力的影响并不大。我们提出了一种原则性的选择方法,并将该方法应用于一个复杂的、机器人堆栈堆栈领域的实验。
论文链接:https://www.aminer.cn/pub/61ea24995244ab9dcbabc692/
想查看全部强化学习论文,可以点击下方链接:
https://www.aminer.cn/conf/5ea1d518edb6e7d53c0100cb/ICLR2023