[强化学习入门]Exploration or Exploitation

2018 年 4 月 19 日 凡人机器学习

点击蓝字关注这个神奇的公众号~

“生存还是死亡,这是一个问题”,在强化学习中,Exploration or Exploitation?it's a problem. 我觉得这两个英文单词来概括强化学习,非常的贴切。强化学习经常被用于例如自动驾驶或是Alphago这样的场景,因为这种场景需要算法根据行为产生的反馈,做出一连串的判断。


Exploration:当我们对这个世界一无所知的时候,探索是唯一了解它的途径。在强化学习的一系列判断中,最初一定是处于信息空白区的,需要大胆的去Exploration,才能够获取更多信息。


Exploitation:经过了一定的Exploration之后,当我们对于这个世界有了一定了解,那么就是开始Exploitation的时候,去根据世界带给我们的反馈,给出最智能的回应。


“The world come with indetermination, but end with intelligence”

-鲁迅 haven't say

下面举一个例子:

如果老鼠走到骷髅头就会,想吃到更多的奶酪,它该怎么走。这里利用强化学习的Q-table方法,去预测每一次老鼠移动所能得到的反馈。


首先画一个Q-table:

每一行代表上图的一个方格,每一列是一旦发生相应移动所能产生的结果,最初我们对这些一无所知,所以只能从“start”处开始探索,这里面涉及一个公式叫bellman公式,可以计算每一次行为产生的期望分,s为现在的状态status,a为action:

假设第一步是从start处向右走,

* NewQ(s,a)=NewQ(start,right)

* Q(start,right)=0,因为当前是0

* a可以自定义,设为0.9

* R(start,right)为发生这个移动能得到的好处,会吃一个奶酪,所以       R(start,right)=1

* Q‘(s',a')是一旦到了右边这一格,再继续向下、向左、向右得到的最大好处,从图片分析,最多是不死,所以是0


于是算下来NewQ(s,a)=0.1

继续移动,直到算出所有行为的一个可能值,填满上面的表格,那么我们每一次做判断都取值做大的action,最终就可以吃最多的奶酪。


不知道大家看懂这个逻辑没有~

(本文参考于https://medium.com/m/global-identity?redirectUrl=https://medium.freecodecamp.org/diving-deeper-into-reinforcement-learning-with-q-learning-c18d0db58efe,认真拜读后的读后感,感谢这个世界有这么多爱分享的人让我们的黑夜不寂寞


你可以选择关注我

   也可以不关注

微信号:凡人机器学习

长按二维码关注


登录查看更多
7

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【圣经书】《强化学习导论(2nd)》电子书与代码,548页pdf
专知会员服务
201+阅读 · 2020年5月22日
《强化学习》简介小册,24页pdf
专知会员服务
272+阅读 · 2020年4月19日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
93+阅读 · 2019年12月23日
【强化学习】深度强化学习初学者指南
专知会员服务
179+阅读 · 2019年12月14日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
深度强化学习入门,这一篇就够了!
机器学习算法与Python学习
27+阅读 · 2018年8月17日
【干货】强化学习介绍
专知
12+阅读 · 2018年6月24日
入门 | 通过 Q-learning 深入理解强化学习
机器之心
12+阅读 · 2018年4月17日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
强化学习的入门之旅
机器学习研究会
6+阅读 · 2018年2月12日
深度强化学习小白入门攻略篇
StuQ
5+阅读 · 2017年9月7日
Risk-Aware Active Inverse Reinforcement Learning
Arxiv
7+阅读 · 2019年1月8日
Logically-Constrained Reinforcement Learning
Arxiv
3+阅读 · 2018年12月6日
Deep Reinforcement Learning: An Overview
Arxiv
17+阅读 · 2018年11月26日
Arxiv
3+阅读 · 2018年10月5日
Arxiv
11+阅读 · 2018年4月25日
Arxiv
3+阅读 · 2017年11月20日
VIP会员
相关VIP内容
【圣经书】《强化学习导论(2nd)》电子书与代码,548页pdf
专知会员服务
201+阅读 · 2020年5月22日
《强化学习》简介小册,24页pdf
专知会员服务
272+阅读 · 2020年4月19日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
93+阅读 · 2019年12月23日
【强化学习】深度强化学习初学者指南
专知会员服务
179+阅读 · 2019年12月14日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
相关资讯
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
深度强化学习入门,这一篇就够了!
机器学习算法与Python学习
27+阅读 · 2018年8月17日
【干货】强化学习介绍
专知
12+阅读 · 2018年6月24日
入门 | 通过 Q-learning 深入理解强化学习
机器之心
12+阅读 · 2018年4月17日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
强化学习的入门之旅
机器学习研究会
6+阅读 · 2018年2月12日
深度强化学习小白入门攻略篇
StuQ
5+阅读 · 2017年9月7日
相关论文
Top
微信扫码咨询专知VIP会员