春节充电系列:李宏毅2017机器学习课程学习笔记31之深度强化学习(deep reinforcement learning)

2018 年 3 月 21 日 专知 专知内容组

【导读】我们在上一节的内容中已经为大家介绍了台大李宏毅老师的机器学习课程的ensemble。这一节将主要针对讨论deep reinforcement learning进行讨论。本文内容主要针对机器学习中deep reinforcement learning的增强学习的概念、Policy-based Approach以及公式推导进行详细介绍,话不多说,让我们一起学习这些内容吧。


春节充电系列:李宏毅2017机器学习课程学习笔记25之结构化学习-序列标注 Sequence Labeling(part 1)

春节充电系列:李宏毅2017机器学习课程学习笔记26之结构化学习-序列标注 Sequence Labeling(part 2)

春节充电系列:李宏毅2017机器学习课程学习笔记27之循环神经网络 Recurrent Neural Network

春节充电系列:李宏毅2017机器学习课程学习笔记28之循环神经网络 Recurrent Neural Network Part2

春节充电系列:李宏毅2017机器学习课程学习笔记29之循环神经网络 Recurrent Neural Network Part3

春节充电系列:李宏毅2017机器学习课程学习笔记30之集成学习 (Ensemble Learning)


课件网址:

http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17_2.html

http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17.html


视频网址:

https://www.bilibili.com/video/av15889450/index_1.html


李宏毅机器学习笔记31 深度强化学习(deep reinforcement learning)

 

1.增强学习的概念




增强学习有两个重要部分,一个是agent,一个是environment。


Agent从环境中观察环境的状态


然后agent根据看到的状态采取行动进而改变


然后agent会得到一个rewardagent每次采取的行动都尽量使得reward最大


比如对于下围棋来说赢了reward1,输了reward0


简单来说监督学习机器是从老师那里学习而增强学习则是从经验那里学习的


增强学习也可以用来训练chat-bot


当然还有更多的应用


在打电脑游戏中可以用到增强学习


增强学习困难在于reward可能不是立马就会得到,比如在下围棋时可能需要短暂的牺牲以便在以后获得更大的优势


增强学习主要分为两大类一个是policy-based另一个是value-based


2. Policy-based Approach




今天主要讲述policy-based approach


Action是要根据目前看到的状态采取行动


actorneural network,增强学习就变成深度增强学习了

 

根据目前的状态NN输出要采取行动的概率

 

Reward我们最后取的是total reward


我们需要取total reward的期望因为即使在不同的实验中我们采取同样的actor我们得到的reward依然是不一样的


3.公式推导



 

于是增强学习的问题可以归结如下


继续化简


对于P(τ|θ)我们可以得到


忽视与θ无关的项


带入式子中我们可以得到


当然这还不够现实和梦想总有差距的而且差距很大


我们需要增加一个baseline当大于baseline的值几率增加小于baseline的值几率减小可以很好的减轻以上情况


到此为止,课程全部结束了,我们总共讲述了以上部分,当然这些内容并不是机器学习的全部内容,仅仅是机器学习的简单入门,在学习过程中也验证了数学的重要性。年轻人不要心浮气躁,地基打牢固了才能建成摩天大楼。


请关注专知公众号(扫一扫最下面专知二维码,或者点击上方蓝色专知),

  • 后台回复“LHY2017” 就可以获取 2017年李宏毅中文机器学习课程下载链接~

-END-

专 · 知

人工智能领域主题知识资料查看获取【专知荟萃】人工智能领域26个主题知识资料全集(入门/进阶/论文/综述/视频/专家等)

同时欢迎各位用户进行专知投稿,详情请点击

诚邀】专知诚挚邀请各位专业者加入AI创作者计划了解使用专知!

请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料

请扫一扫如下二维码关注我们的公众号,获取人工智能的专业知识!

请加专知小助手微信(Rancho_Fang),加入专知主题人工智能群交流加入专知主题群(请备注主题类型:AI、NLP、CV、 KG等)交流~

点击“阅读原文”,使用专知

登录查看更多
3

相关内容

李宏毅(Hung-yi Lee)目前任台湾大学电机工程学系和电机资讯学院的助理教授,他曾于 2012 年获得台湾大学博士学位,并于 2013 年赴麻省理工学院(MIT)计算机科学和人工智能实验室(CSAIL)做访问学者。他的研究方向主要是机器学习(深度学习)和语音识别。
【牛津大学&DeepMind】自监督学习教程,141页ppt
专知会员服务
180+阅读 · 2020年5月29日
【Texas 大学】强化学习领域的课程学习:一个框架和综述
专知会员服务
72+阅读 · 2020年3月22日
【MIT深度学习课程】深度序列建模,Deep Sequence Modeling
专知会员服务
78+阅读 · 2020年2月3日
深度强化学习策略梯度教程,53页ppt
专知会员服务
182+阅读 · 2020年2月1日
专知会员服务
117+阅读 · 2019年12月24日
【强化学习】深度强化学习初学者指南
专知会员服务
182+阅读 · 2019年12月14日
Logically-Constrained Reinforcement Learning
Arxiv
3+阅读 · 2018年12月6日
Symbolic Priors for RNN-based Semantic Parsing
Arxiv
3+阅读 · 2018年9月20日
Relational Deep Reinforcement Learning
Arxiv
10+阅读 · 2018年6月28日
Arxiv
6+阅读 · 2018年2月24日
Arxiv
13+阅读 · 2018年1月20日
VIP会员
相关VIP内容
【牛津大学&DeepMind】自监督学习教程,141页ppt
专知会员服务
180+阅读 · 2020年5月29日
【Texas 大学】强化学习领域的课程学习:一个框架和综述
专知会员服务
72+阅读 · 2020年3月22日
【MIT深度学习课程】深度序列建模,Deep Sequence Modeling
专知会员服务
78+阅读 · 2020年2月3日
深度强化学习策略梯度教程,53页ppt
专知会员服务
182+阅读 · 2020年2月1日
专知会员服务
117+阅读 · 2019年12月24日
【强化学习】深度强化学习初学者指南
专知会员服务
182+阅读 · 2019年12月14日
Top
微信扫码咨询专知VIP会员