马尔可夫决策过程

马尔可夫决策过程（MDP）提供了一个数学框架，用于在结果部分随机且部分受决策者控制的情况下对决策建模。 MDP可用于研究通过动态编程和强化学习解决的各种优化问题。 MDP至少早在1950年代就已为人所知（参见）。马尔可夫决策过程的研究核心是罗纳德·霍华德（Ronald A. Howard）于1960年出版的《动态编程和马尔可夫过程》一书。它们被广泛用于各种学科，包括机器人技术，自动控制，经济学和制造。更精确地，马尔可夫决策过程是离散的时间随机控制过程。在每个时间步骤中，流程都处于某种状态，决策者可以选择该状态下可用的任何操作。该过程在下一时间步响应，随机进入新状态，并给予决策者相应的奖励。流程进入新状态的可能性受所选动作的影响。具体而言，它由状态转换函数给出。因此，下一个状态取决于当前状态和决策者的动作。但是给定和，它有条件地独立于所有先前的状态和动作；换句话说，MDP进程的状态转换满足Markov属性。马尔可夫决策过程是马尔可夫链的扩展。区别在于增加了动作（允许选择）和奖励（给予动机）。相反，如果每个状态仅存在一个动作（例如“等待”）并且所有奖励都相同（例如“零”），则马尔可夫决策过程将简化为马尔可夫链。