金融界2024年10月24日消息,国家知识产权局信息显示,葳迪易(苏州)信息科技有限公司申请一项名为“基于条件生成对抗网络的平均场多智能体强化学习方法”的专利,公开号CN 118798309 A,申请日期为2024年7月。
专利摘要显示,本发明提出了基于条件生成对抗网络的平均场多智能体强化学习方法,涉及人工智能技术领域,其包括如下步骤:1:对未知的动态环境进行建模,智能体采取回合制来执行任务,在每个训练回合t中,将智能体与真实环境交互的数据收集到数据集Dt={((si,h,ai,h,μi,h),si,h+1)},h=0,1,...,H‑1,i=1,2,...,t中;2:利用CGAN对状态转移函数P(st+1|st,at,μt)建模,并用数据集Dt中的数据对环境模型进行训练,直到环境模型收敛;3:让MFC中的代表智能体直接与稳定后的环境模型P (st+1|st,at,μt)进行交互,获得大量的样本序列;4:利用第三步中交互获得的数据对策略参数进行优化,直到学习到最优策略π*。经过仿真实验验证,本发明有效提高了环境动力学模型的准确度,同时生成的样本数据能够很好地用于策略学习,使得智能体在任务中获得更高的期望累积奖励值。
来源:金融界