IJCAI2023 强化学习论文合集

作者：AMiner科技发布时间：2023-06-07

AMiner通过AI技术，对 IJCAI2023 收录的会议论文进行了分类整理，今日分享的是强化学习主题论文，共13篇，我们在这里展示五篇最受欢迎的论文，欢迎下载收藏！

1.CROP: Towards Distributional-Shift Robust Reinforcement Learning using Compact Reshaped Observation Processing

作者：Philipp Altmann,Fabian Ritz,Leonard Feuchtinger,Jonas Nüßlein,Claudia Linnhoff-Popien,Thomy Phan

链接：https://www.aminer.cn/pub/6449e7ff582c1376bbfc67ed/

ChatPaper综述（大模型驱动）：本文提出了一种新的训练数据推广技术,用于从有限的训练数据扩展到看不见的情况。当前最先进的方法应用数据增量技术,以增加训练数据的多样性。即使这避免了对培训环境不匹配,也阻碍了政策优化。构建一个合适的观察器,只包含关键信息,已被证明是一项挑战性的任务。为了提高数据效率和通用化能力,我们提出了一种 Compact Reshaped Observation Processing(Crop),通过提供唯一相关的信息,克服特定的训练布局过度拟合并推广到看不见的环境中。

2.Safe Reinforcement Learning via Probabilistic Logic Shields

作者：Wen-Chi Yang,Giuseppe Marra,Gavin Rens,Luc De Raedt

链接：https://www.aminer.cn/pub/6406ac6f90e50fcafd0547cc/

ChatPaper综述（大模型驱动）：本文提出了一种基于概率逻辑政策梯度(PLPG)的Safe RL技术,它利用概率逻辑编程来模拟逻辑安全约束作为独立于变量的函数。因此,PLPG可以灵活地应用于任何政策梯度算法,同时提供相同的相干保证。在我们的实验中,我们证明了PLPG学习更安全的策略和比其他最先进的保护技术更好。

3.Learning to Send Reinforcements: Coordinating Multi-Agent Dynamic Police Patrol Dispatching and Rescheduling via Reinforcement Learning

作者：Waldy Joe,Hoong Chuin Lau

链接：https://www.aminer.cn/pub/64671279d68f896efaf15641/

ChatPaper综述（大模型驱动）：本文通过 Reinforcement Learning(RL)方法,解决了动态警察巡逻计划中多个agent的协同调度问题。该方法使用多 Agents Value Function Approximation(MAVFA)的调度算法来学习调度和调度政策,同时考虑到不同的部门之间的相互支持,以最大限度地提高警方的有效性和高效性。我们提出了一种基于重叠的最佳响应程序和明确的协调机制,用于可扩展和协调决策 Making。实验结果表明,该方法在处理类似的问题时表现更好。

4.Ensemble Reinforcement Learning in Continuous Spaces — A Hierarchical Multi-Step Approach for Policy Training

作者：Gang Chen,Victoria Huang

链接：https://www.aminer.cn/pub/6467125bd68f896efaf1417b/

ChatPaper综述（大模型驱动）： Actor critic deep reinforcement学习(DRL)算法最近在解决多项式连续状态和行为空间等复杂控制任务方面取得了显著成功。然而,现有研究表明,演员批评DRL算法经常未能有效地探索其学习环境,从而导致有限的学习稳定性和性能较差。为了克服这一局限性,本文提出了一种新的训练技术,将基于创新的多步整合方法的混合基础学习算法训练为一个集合。该算法能够有效地促进学习者之间的协同优化,通过保持学习者参数共享来实现。

5.Explainable Reinforcement Learning via a Causal World Model

作者：Zhongwei Yu,Jingqing Ruan,Dengpeng Xing

链接：https://www.aminer.cn/pub/6456389cd68f896efacf6c5c/

ChatPaper综述（大模型驱动）：本文提出了一种基于原因世界的新框架,以生成促进学习(RL)的解释。该模型捕捉行为的影响,允许我们通过因果链阅读行为的长期影响,通过因果链解释行为的影响环境变量,最后导致奖励。与大多数解释性模型相比,我们的模型在提高解释能力时保持准确,同时改善了解释性,使其用于建模学习。