当前位置:首页|资讯

什么是马尔可夫决策过程?

作者:知源觅流发布时间:2024-09-22

马尔可夫决策过程(Markov Decision Process,MDP)是一个用于决策的数学模型,其中智能体(agent)随时间与环境进行交互。它由一组状态(state)、动作(action)、一个状态转移(state transition)模型(它定义了给定特定动作时从一个状态转移到另一个状态的概率)等组成。在MDP中,目标是找到一个策略(policy)(一种选择动作的策略),该策略可以最大化预期的累积奖励(cumulative reward)。...【查看原文】

强化学习RL

Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1