成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
马尔可夫决策过程
关注
23
马尔可夫决策过程(MDP)提供了一个数学框架,用于在结果部分随机且部分受决策者控制的情况下对决策建模。 MDP可用于研究通过动态编程和强化学习解决的各种优化问题。 MDP至少早在1950年代就已为人所知(参见)。 马尔可夫决策过程的研究核心是罗纳德·霍华德(Ronald A. Howard)于1960年出版的《动态编程和马尔可夫过程》一书。 它们被广泛用于各种学科,包括机器人技术,自动控制,经济学和制造。 更精确地,马尔可夫决策过程是离散的时间随机控制过程。 在每个时间步骤中,流程都处于某种状态,决策者可以选择该状态下可用的任何操作。 该过程在下一时间步响应,随机进入新状态,并给予决策者相应的奖励。 流程进入新状态的可能性受所选动作的影响。 具体而言,它由状态转换函数给出。 因此,下一个状态取决于当前状态和决策者的动作。 但是给定和,它有条件地独立于所有先前的状态和动作; 换句话说,MDP进程的状态转换满足Markov属性。 马尔可夫决策过程是马尔可夫链的扩展。 区别在于增加了动作(允许选择)和奖励(给予动机)。 相反,如果每个状态仅存在一个动作(例如“等待”)并且所有奖励都相同(例如“零”),则马尔可夫决策过程将简化为马尔可夫链。
综合
百科
VIP
热门
动态
论文
精华
今日 Paper | 虚假新闻检测;马尔可夫决策过程;场景文本识别;博弈论框架等
AI科技评论
2+阅读 · 2020年1月3日
秒懂 | 南京大学俞扬博士独家演讲:强化学习前沿(上)
AI科技评论
0+阅读 · 2017年5月9日
对话IJCAI2019特邀讲者Leslie Kaelbling: 与AI和机器人结缘背后的故事
AI科技评论
0+阅读 · 2019年4月13日
一文带你理解Q-Learning的搜索策略,掌握强化学习最常用算法
量子位
0+阅读 · 2018年5月19日
精选|2018年12月R新包推荐
R语言中文社区
0+阅读 · 2019年2月3日
首发 | 环境也能强化学习,智能体要找不着北了,UCL汪军团队提出环境设计的新方法
AI科技评论
0+阅读 · 2017年7月13日
详解蒙特卡洛方法:这些数学你搞懂了吗?
MOOC
1+阅读 · 2018年6月13日
斯坦福大学2019夏季课程《人工智能:原则与技术》
专知
0+阅读 · 2019年6月30日
548页MIT强化学习教程,收藏备用【PDF下载】
机器学习算法与Python学习
16+阅读 · 2018年10月11日
赠书:Sutton老爷子经典之作,《强化学习》中文第2版
机器之心
9+阅读 · 2019年10月17日
强化学习为何泛化如此困难?从认知POMDP、隐式部分可观察解读
PaperWeekly
2+阅读 · 2021年11月30日
【简明书】强化学习的基础,111页pdf
专知
1+阅读 · 2022年11月16日
从入门到大师,强化学习你只要看这些就够了~
计算机视觉life
1+阅读 · 2020年8月13日
学界 | 心理学带来曙光,DeepMind要像理解人一样理解模型
AI科技评论
2+阅读 · 2018年2月24日
【重磅】61篇NIPS2019深度强化学习论文及部分解读
AI科技评论
15+阅读 · 2019年9月9日
参考链接
父主题
强化学习
最优策略
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top