马尔可夫决策过程(MDP)提供了一个数学框架,用于在结果部分随机且部分受决策者控制的情况下对决策建模。 MDP可用于研究通过动态编程和强化学习解决的各种优化问题。 MDP至少早在1950年代就已为人所知(参见)。 马尔可夫决策过程的研究核心是罗纳德·霍华德(Ronald A. Howard)于1960年出版的《动态编程和马尔可夫过程》一书。 它们被广泛用于各种学科,包括机器人技术,自动控制,经济学和制造。 更精确地,马尔可夫决策过程是离散的时间随机控制过程。 在每个时间步骤中,流程都处于某种状态,决策者可以选择该状态下可用的任何操作。 该过程在下一时间步响应,随机进入新状态,并给予决策者相应的奖励。 流程进入新状态的可能性受所选动作的影响。 具体而言,它由状态转换函数给出。 因此,下一个状态取决于当前状态和决策者的动作。 但是给定和,它有条件地独立于所有先前的状态和动作; 换句话说,MDP进程的状态转换满足Markov属性。 马尔可夫决策过程是马尔可夫链的扩展。 区别在于增加了动作(允许选择)和奖励(给予动机)。 相反,如果每个状态仅存在一个动作(例如“等待”)并且所有奖励都相同(例如“零”),则马尔可夫决策过程将简化为马尔可夫链。

VIP内容

为了推动网络广告的购买行为,优化序列广告策略是广告商非常关心的问题,而序列广告策略的性能和可解释性都非常重要。现有的深度强化学习方法缺乏可解释性,使得策略不易被理解、诊断和进一步优化。在本文中,我们提出了我们的深度意图序列广告(DISA)方法来解决这些问题。可解释性的关键部分是了解消费者的购买意图,而这种意图是不可观察的(称为隐藏状态)。在本文中,我们将意图建模为一个潜在变量,并将问题表述为一个部分可观察的马尔可夫决策过程(POMDP),其中潜在意图是根据可观察行为推断出来的。大规模的工业离线和在线实验证明了我们的方法在多个基线上的优越性能。对推导出的隐状态进行了分析,结果证明了推理的合理性。

成为VIP会员查看完整内容
0
16
Top