IJCAI2023 多智能体强化学习论文合集

作者：AMiner科技发布时间：2023-06-07

AMiner通过AI技术，对 IJCAI2023 收录的会议论文进行了分类整理，今日分享的是多智能体强化学习主题论文，共11篇，我们在这里展示十篇最受欢迎的论文，欢迎下载收藏！

1.Competitive-Cooperative Multi-Agent Reinforcement Learning for Auction-based Federated Learning

作者：Xiaoli Tang,Han Yu

链接：https://www.aminer.cn/pub/6467126fd68f896efaf14fd5/

ChatPaper综述（大模型驱动）：多机构干预学习(AFL)是一种促进数据消费者共同参与的新技术。现有的AFL方法难以处理数据消费者之间的相互影响,而无法支持单个数据消费者同时加入多个数据消费者。本文提出了一种基于温度的奖励重塑方案,以实现对协同和竞争行为进行权衡。通过设计一个基于气温的奖励重塑方案, MARL AFL可以实现平衡状态,确保个人数据消费者能够实现良好的服务,同时也保护系统水平的社会福利。本文在六个常用的基准数据集上进行了大量实验,结果表明 MARL AFL显著优于六种最先进的方法,分别在平均社会福利、收入和模型准确性方面表现最佳。

2.Modeling Moral Choices in Social Dilemmas with Multi-Agent Reinforcement Learning

作者：Elizaveta Tennant,Stephen Hailes,Mirco Musolesi

链接：https://www.aminer.cn/pub/63cdfab690e50fcafd106f57/

ChatPaper综述（大模型驱动）：本文系统分析了基于固有动机的反向学习(RL)实体的行为,旨在设计具有简化的奖励结构。首先,我们定义了反向和影响的关系,并分析了不同类型的道德行为对合作、厌恶或剥削的出现以及相关社会结果的影响。最后,我们讨论了这些发现对人工和混合人类AI社会的道德 Agent的发展的影响。

3.Inducing Stackelberg Equilibrium through Spatio-Temporal Sequential Decision-Making in Multi-Agent Reinforcement Learning

作者：Bin Zhang,Lijuan Li,Zhiwei Xu,Dapeng Li,Guoliang Fan

链接：https://www.aminer.cn/pub/6441ff2eed329dcc6bb7493e/

ChatPaper综述（大模型驱动）：本文提出了一种多协同干预学习方法,通过建立局部时间顺序决策处理结构,从马尔可夫游戏(MG)框架中提取了斯塔克勒布格平衡(SE)的理论,并提出了一个基于所有agent共享的N级政策模型。该方法能够实现对异构训练,同时保持参数共享,从而减少学习和存储成本,同时也提高了扩展性和可扩展性。实验证明,我们的方法在反复的矩阵游戏情景中有效地结合了SE策略,并且在非常复杂的条件下表现出色,包括协同任务和混合任务。

4.Explainable Multi-Agent Reinforcement Learning for Temporal Queries

作者：Kayla Boggess,Sarit Kraus,Lu Feng

链接：https://www.aminer.cn/pub/64659ad1d68f896efa875375/

ChatPaper综述（大模型驱动）：本文提出了一种生成策略层相似解释方法,以应对时间的用户查询,该方法将时间查询编码为PCTL逻辑函数,通过概率模型检查验证问题是否可实现。这种方法还可以生成正确的和完全的解释,以指出使用户查询无法实现的原因。我们已经将该方法应用于四个基准 MARL领域(高达9个agent在一个领域中),并且用户研究结果表明,生成的解释显著提高了用户性能和满意度。

5.Scalable Communication for Multi-Agent Reinforcement Learning via Transformer-Based Email Mechanism

作者：Xudong Guo,Daming Shi,Wenhui Fan

链接：https://www.aminer.cn/pub/64671255d68f896efaf13e57/

ChatPaper综述（大模型驱动）：本文提出了一种新框架的Transformer基于电子邮件机制(tem)。该框架采用局部通讯,只向观察到的任何人发送消息。受人类与电子发送信息合作的启发,我们设计了消息链,通过编码和解码消息链以选择下一个接收器来协作。实验结果表明,Tem在多个协同 MARL基准测试中性能优于基准。

6.Self-supervised Neuron Segmentation with Multi-Agent Reinforcement Learning

作者：Yinda Chen,Wei Huang,Shenglong Zhou,Qi Chen,Zhiwei Xiong

链接：https://www.aminer.cn/pub/64671256d68f896efaf13fb3/
ChatPaper综述（大模型驱动）：本文提出了一种基于决策的模糊图像模型(MIM),它利用激励学习(RL)自动搜索最优图像掩盖比例和遮挡策略,以克服先前训练不均衡的问题。通过将每个输入片段视为一个具有共同行为政策的agent,允许多机构合作,我们提出了该模型,并证明了该方法在神经切分任务上的显著优势。实验结果表明,该方法与其他自监督方法相比具有显著的优势。

7.GPLight: Grouped Multi-agent Reinforcement Learning for Large-scale Traffic Signal Control

作者：Yilin Liu,Guiyang Luo,Quan Yuan,Jinglin Li,Lei Jin,Bo Chen,Rui Pan

链接：https://www.aminer.cn/pub/64671261d68f896efaf14554/
ChatPaper综述（大模型驱动）：本文提出了一种分组 MARL方法,名为GPLight,该方法首先比较agent环境和动态聚类之间的相似性,然后提出了两个损失函数来维持可学习和动态聚类,一个应用互信息估计以提高稳定性,另一个旨在最大限度地实现聚类。最后,GPLight在小组中执行相同的网络和参数,以确保准确性。与目前最先进的方法相比,实验结果表明,我们的方法在大规模CTL中具有优异的性能。

8.Deep Hierarchical Communication Graph in Multi-Agent Reinforcement Learning

作者：Zeyang Liu,Lipeng Wan,Xue Sui,Zhuoran Chen,Kewu Sun,Xuguang Lan

链接：https://www.aminer.cn/pub/64671269d68f896efaf14c11/

ChatPaper综述（大模型驱动）：本文提出了Deep Hierarchical Communication Graph(DHCG)用于学习基于传递的agent之间的依赖关系。DHCG旨在消除图中的周期,并将其映射到允许的解决方案集上,以提高成本和协调能力。研究结果表明,该方法在协作多机构任务中表现出优异的性能,包括隐马尔可夫、多机构协调挑战和星球大战多机构挑战。实证结果表明,该方法在多个协作多机构任务中表现出优异的性能,包括隐马尔可夫、多机构协调挑战和星球大战多机构挑战。

9.Decentralized Anomaly Detection in Cooperative Multi-Agent Reinforcement Learning

作者：Kiarash Kazari,Ezzeldin Shereen,Gyorgy Dan

链接：https://www.aminer.cn/pub/6467126bd68f896efaf14c92/

ChatPaper综述（大模型驱动）：本文研究了在协同学习中检测敌对攻击的问题。我们提出了一种分散的神经网络(RNN)方法,用于预测其他agent的动作分布,基于局部观察。预测分布用于计算Agent的正常度分数,该分数用于检测其他agent的行为不当行为。为了探讨所提出的检测方案的鲁棒性性质,我们将其定义为以压缩激励学习问题,并通过优化对应的双重函数来计算攻击策略。

10.DPMAC: Differentially Private Communication for Cooperative Multi-Agent Reinforcement Learning

作者：Canzhe Zhao,Yanjie Ze,Jing Dong,Baoxiang Wang,Shuai Li

链接：https://www.aminer.cn/pub/6433f69590e50fcafd6e3187/

ChatPaper综述（大模型驱动）：本文提出了一种名为"多重实体通信"(DPMAC)算法,用于保护个人信息的敏感信息。该算法采用一个随机消息发送器和将DP要求纳入发送器,自动调节学习消息分布以消除DP噪音。此外,我们证明了与保护隐私问题合作的DPMAC存在平衡,这表明这个问题是非理论上学习的。实验结果表明,在保护隐私问题方面,DPMAC比基线方法具有显著的优势。