马尔可夫决策过程(Markov Decision Process,MDP)是一个用于决策的数学模型,其中智能体(agent)随时间与环境进行交互。它由一组状态(state)、动作(action)、一个状态转移(state transition)模型(它定义了给定特定动作时从一个状态转移到另一个状态的概率)等组成。在MDP中,目标是找到一个策略(policy)(一种选择动作的策略),该策略可以最大化预期的累积奖励(cumulative reward)。...【查看原文】
OBOO鸥柏 2024-12-26
钦莎一口甜 2024-12-26
新疆无人机03考点 2024-12-26
海尔施基因 2024-12-26
sunny-mmm 2024-12-26