最近,由北京大学人工智能研究院杨耀东课题组牵头,北京大学工学院、计算机学院和伦敦国王学院协作完成的研究成果——“大规模多智能体系统的高效强化学习” 在人工智能顶级学术期刊 Nature Machine Intelligence 上发表。
据悉,该成果首次在多智能体系统中实现了高效的去中心化协同决策,显著提升了人工智能方法在大规模多智能体系统中的扩展性和适用性。
多智能系统主要以庞大的智能体交互数据为基础,利用大量计算资源驱动每个智能体学习如何与其他智能体合作执行复杂任务,其核心范式是多智能体强化学习。
论文表示,开发大规模智能体系统的主要挑战在于实现可扩展,即在保持足够性能的同时,实现AI模型的扩展。现有研究表明,分布式人工智能可以通过分解复杂任务并将其分布在协作节点上,以便提高可扩展性。然而,由于对通信和采样数据的大量要求,以往的技术在的适用性和可扩展性都有不足。
研究团队开发了一个基于模型的分散策略优化框架,可以有效地部署在多智能体系统中。通过利用全局动力学的代理级拓扑解耦的局部观测,证明了这种分散机制实现了对全局信息的准确估计。重要的是,他们进一步引入了模型学习,以在有限数量的采样数据下强化单调改进的最优策略。不同场景的实证结果表明,该方法具有卓越的可扩展性,特别是在具有数百个智能体的现实世界系统中,从而为扩展智能系统铺平了道路。
研究结果表明,该方法能够扩展到具有数百个智能体的大规模电网和交通等网络化系统中,在较低的通信成本下实现较高的决策性能。例如,当在城市交通系统中控制交通信号灯时,频繁的大规模通信操作容易增加功率损失和被信号干扰的概率,并且计算复杂性将随着交通灯数量的增多而指数级增加。因此,有必要设计能够在有限数据和客观通信约束下,将决策能力扩展到包含大量智能体的复杂真实系统中的多智能体强化学习方法。