国际人工智能联合会议(International Joint Conference on Artificial Intelligence, 简称为IJCAI)是人工智能领域中最主要的学术会议之一。该会议每两年举办一次,汇聚了世界各地的学者、研究人员和工程师,分享最新的人工智能研究成果、探讨前沿技术和趋势、以及交流学术思想和见解。
AMiner通过AI技术,对 IJCAI2023 收录的会议论文进行了分类整理,今日分享的是多智能体强化学习主题论文,共11篇,我们在这里展示十篇最受欢迎的论文,欢迎下载收藏!
1.Competitive-Cooperative Multi-Agent Reinforcement Learning for Auction-based Federated Learning
作者:Xiaoli Tang,Han Yu
链接:https://www.aminer.cn/pub/6467126fd68f896efaf14fd5/
ChatPaper综述(大模型驱动):多机构干预学习(AFL)是一种促进数据消费者共同参与的新技术。现有的AFL方法难以处理数据消费者之间的相互影响,而无法支持单个数据消费者同时加入多个数据消费者。本文提出了一种基于温度的奖励重塑方案,以实现对协同和竞争行为进行权衡。通过设计一个基于气温的奖励重塑方案, MARL AFL可以实现平衡状态,确保个人数据消费者能够实现良好的服务,同时也保护系统水平的社会福利。本文在六个常用的基准数据集上进行了大量实验,结果表明 MARL AFL显著优于六种最先进的方法,分别在平均社会福利、收入和模型准确性方面表现最佳。
2.Modeling Moral Choices in Social Dilemmas with Multi-Agent Reinforcement Learning
作者:Elizaveta Tennant,Stephen Hailes,Mirco Musolesi
链接:https://www.aminer.cn/pub/63cdfab690e50fcafd106f57/
ChatPaper综述(大模型驱动):本文系统分析了基于固有动机的反向学习(RL)实体的行为,旨在设计具有简化的奖励结构。首先,我们定义了反向和影响的关系,并分析了不同类型的道德行为对合作、厌恶或剥削的出现以及相关社会结果的影响。最后,我们讨论了这些发现对人工和混合人类AI社会的道德 Agent的发展的影响。
3.Inducing Stackelberg Equilibrium through Spatio-Temporal Sequential Decision-Making in Multi-Agent Reinforcement Learning
作者:Bin Zhang,Lijuan Li,Zhiwei Xu,Dapeng Li,Guoliang Fan
链接:https://www.aminer.cn/pub/6441ff2eed329dcc6bb7493e/
ChatPaper综述(大模型驱动):本文提出了一种多协同干预学习方法,通过建立局部时间顺序决策处理结构,从马尔可夫游戏(MG)框架中提取了斯塔克勒布格平衡(SE)的理论,并提出了一个基于所有agent共享的N级政策模型。该方法能够实现对异构训练,同时保持参数共享,从而减少学习和存储成本,同时也提高了扩展性和可扩展性。实验证明,我们的方法在反复的矩阵游戏情景中有效地结合了SE策略,并且在非常复杂的条件下表现出色,包括协同任务和混合任务。
4.Explainable Multi-Agent Reinforcement Learning for Temporal Queries
作者:Kayla Boggess,Sarit Kraus,Lu Feng
链接:https://www.aminer.cn/pub/64659ad1d68f896efa875375/
ChatPaper综述(大模型驱动):本文提出了一种生成策略层相似解释方法,以应对时间的用户查询,该方法将时间查询编码为PCTL逻辑函数,通过概率模型检查验证问题是否可实现。这种方法还可以生成正确的和完全的解释,以指出使用户查询无法实现的原因。我们已经将该方法应用于四个基准 MARL领域(高达9个agent在一个领域中),并且用户研究结果表明,生成的解释显著提高了用户性能和满意度。
5.Scalable Communication for Multi-Agent Reinforcement Learning via Transformer-Based Email Mechanism
作者:Xudong Guo,Daming Shi,Wenhui Fan
链接:https://www.aminer.cn/pub/64671255d68f896efaf13e57/
ChatPaper综述(大模型驱动):本文提出了一种新框架的Transformer基于电子邮件机制(tem)。该框架采用局部通讯,只向观察到的任何人发送消息。受人类与电子发送信息合作的启发,我们设计了消息链,通过编码和解码消息链以选择下一个接收器来协作。实验结果表明,Tem在多个协同 MARL基准测试中性能优于基准。
6.Self-supervised Neuron Segmentation with Multi-Agent Reinforcement Learning
作者:Yinda Chen,Wei Huang,Shenglong Zhou,Qi Chen,Zhiwei Xiong
链接:https://www.aminer.cn/pub/64671256d68f896efaf13fb3/
ChatPaper综述(大模型驱动):本文提出了一种基于决策的模糊图像模型(MIM),它利用激励学习(RL)自动搜索最优图像掩盖比例和遮挡策略,以克服先前训练不均衡的问题。通过将每个输入片段视为一个具有共同行为政策的agent,允许多机构合作,我们提出了该模型,并证明了该方法在神经切分任务上的显著优势。实验结果表明,该方法与其他自监督方法相比具有显著的优势。
7.GPLight: Grouped Multi-agent Reinforcement Learning for Large-scale Traffic Signal Control
作者:Yilin Liu,Guiyang Luo,Quan Yuan,Jinglin Li,Lei Jin,Bo Chen,Rui Pan
链接:https://www.aminer.cn/pub/64671261d68f896efaf14554/
ChatPaper综述(大模型驱动):本文提出了一种分组 MARL方法,名为GPLight,该方法首先比较agent环境和动态聚类之间的相似性,然后提出了两个损失函数来维持可学习和动态聚类,一个应用互信息估计以提高稳定性,另一个旨在最大限度地实现聚类。最后,GPLight在小组中执行相同的网络和参数,以确保准确性。与目前最先进的方法相比,实验结果表明,我们的方法在大规模CTL中具有优异的性能。
8.Deep Hierarchical Communication Graph in Multi-Agent Reinforcement Learning
作者:Zeyang Liu,Lipeng Wan,Xue Sui,Zhuoran Chen,Kewu Sun,Xuguang Lan
链接:https://www.aminer.cn/pub/64671269d68f896efaf14c11/
ChatPaper综述(大模型驱动): 本文提出了Deep Hierarchical Communication Graph(DHCG)用于学习基于传递的agent之间的依赖关系。DHCG旨在消除图中的周期,并将其映射到允许的解决方案集上,以提高成本和协调能力。研究结果表明,该方法在协作多机构任务中表现出优异的性能,包括隐马尔可夫、多机构协调挑战和星球大战多机构挑战。实证结果表明,该方法在多个协作多机构任务中表现出优异的性能,包括隐马尔可夫、多机构协调挑战和星球大战多机构挑战。
9.Decentralized Anomaly Detection in Cooperative Multi-Agent Reinforcement Learning
作者:Kiarash Kazari,Ezzeldin Shereen,Gyorgy Dan
链接:https://www.aminer.cn/pub/6467126bd68f896efaf14c92/
ChatPaper综述(大模型驱动):本文研究了在协同学习中检测敌对攻击的问题。我们提出了一种分散的神经网络(RNN)方法,用于预测其他agent的动作分布,基于局部观察。预测分布用于计算Agent的正常度分数,该分数用于检测其他agent的行为不当行为。为了探讨所提出的检测方案的鲁棒性性质,我们将其定义为以压缩激励学习问题,并通过优化对应的双重函数来计算攻击策略。
10.DPMAC: Differentially Private Communication for Cooperative Multi-Agent Reinforcement Learning
作者:Canzhe Zhao,Yanjie Ze,Jing Dong,Baoxiang Wang,Shuai Li
链接:https://www.aminer.cn/pub/6433f69590e50fcafd6e3187/
ChatPaper综述(大模型驱动):本文提出了一种名为"多重实体通信"(DPMAC)算法,用于保护个人信息的敏感信息。该算法采用一个随机消息发送器和将DP要求纳入发送器,自动调节学习消息分布以消除DP噪音。此外,我们证明了与保护隐私问题合作的DPMAC存在平衡,这表明这个问题是非理论上学习的。实验结果表明,在保护隐私问题方面,DPMAC比基线方法具有显著的优势。
点击下方链接可查看所有多智能体强化学习论文:
https://www.aminer.cn/conf/5ea1b5f2edb6e7d53c00c875/IJCAI2023