[强化学习入门]Exploration or Exploitation - 专知

会员服务 ·

0

[强化学习入门]Exploration or Exploitation

2018 年 4 月 19 日 凡人机器学习

点击蓝字关注这个神奇的公众号～

“生存还是死亡，这是一个问题”，在强化学习中，Exploration or Exploitation？it's a problem. 我觉得这两个英文单词来概括强化学习，非常的贴切。强化学习经常被用于例如自动驾驶或是Alphago这样的场景，因为这种场景需要算法根据行为产生的反馈，做出一连串的判断。

Exploration：当我们对这个世界一无所知的时候，探索是唯一了解它的途径。在强化学习的一系列判断中，最初一定是处于信息空白区的，需要大胆的去Exploration，才能够获取更多信息。

Exploitation：经过了一定的Exploration之后，当我们对于这个世界有了一定了解，那么就是开始Exploitation的时候，去根据世界带给我们的反馈，给出最智能的回应。

“The world come with indetermination, but end with intelligence”

-鲁迅 haven't say

下面举一个例子：

如果老鼠走到骷髅头就会，想吃到更多的奶酪，它该怎么走。这里利用强化学习的Q-table方法，去预测每一次老鼠移动所能得到的反馈。

首先画一个Q-table：

每一行代表上图的一个方格，每一列是一旦发生相应移动所能产生的结果，最初我们对这些一无所知，所以只能从“start”处开始探索，这里面涉及一个公式叫bellman公式，可以计算每一次行为产生的期望分，s为现在的状态status，a为action：

假设第一步是从start处向右走，

* NewQ(s,a)=NewQ(start,right)

* Q(start,right)=0,因为当前是0

* a可以自定义，设为0.9

* R(start,right)为发生这个移动能得到的好处，会吃一个奶酪，所以 R(start,right)=1

* Q‘(s',a')是一旦到了右边这一格，再继续向下、向左、向右得到的最大好处，从图片分析，最多是不死，所以是0

于是算下来NewQ(s,a)=0.1

继续移动，直到算出所有行为的一个可能值，填满上面的表格，那么我们每一次做判断都取值做大的action，最终就可以吃最多的奶酪。

不知道大家看懂这个逻辑没有~

（本文参考于https://medium.com/m/global-identity?redirectUrl=https://medium.freecodecamp.org/diving-deeper-into-reinforcement-learning-with-q-learning-c18d0db58efe，认真拜读后的读后感，感谢这个世界有这么多爱分享的人让我们的黑夜不寂寞）

你可以选择关注我

也可以不关注

微信号：凡人机器学习

长按二维码关注

登录查看更多

7

相关内容

强化学习

强化学习（RL）是机器学习的一个领域，与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外，强化学习是三种基本的机器学习范式之一。强化学习与监督学习的不同之处在于，不需要呈现带标签的输入/输出对，也不需要显式纠正次优动作。相反，重点是在探索（未知领域）和利用（当前知识）之间找到平衡。该环境通常以马尔可夫决策过程（MDP）的形式陈述，因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于，后者不假设MDP的确切数学模型，并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

《Python机器学习项目实战》，135页pdf带你小白入门机器学习

《Python机器学习项目实战》，135页pdf带你小白入门机器学习

专知会员服务

174+阅读 · 2020年6月6日

【圣经书】《强化学习导论(2nd)》电子书与代码，548页pdf

【圣经书】《强化学习导论(2nd)》电子书与代码，548页pdf

专知会员服务

208+阅读 · 2020年5月22日

《强化学习》简介小册，24页pdf

《强化学习》简介小册，24页pdf

专知会员服务

277+阅读 · 2020年4月19日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

【新书】Python强化学习-基于Tensorflow与Keras和OpenAI Gym实战, 177页pdf

【新书】Python强化学习-基于Tensorflow与Keras和OpenAI Gym实战, 177页pdf

专知会员服务

184+阅读 · 2020年1月17日

【强化学习轻松入门】《Reinforcement Learning 101》，Shweta Bhatt

【强化学习轻松入门】《Reinforcement Learning 101》，Shweta Bhatt

专知会员服务

50+阅读 · 2020年1月3日

【强化学习资源集合】Awesome Reinforcement Learning

【强化学习资源集合】Awesome Reinforcement Learning

专知会员服务

97+阅读 · 2019年12月23日

【强化学习】深度强化学习初学者指南

【强化学习】深度强化学习初学者指南

专知会员服务

182+阅读 · 2019年12月14日

【DeepMind-Nando de Freitas】强化学习教程，102页ppt，Reinforcement Learning

【DeepMind-Nando de Freitas】强化学习教程，102页ppt，Reinforcement Learning

专知会员服务

84+阅读 · 2019年11月15日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

强化学习扫盲贴：从Q-learning到DQN

强化学习扫盲贴：从Q-learning到DQN

夕小瑶的卖萌屋

52+阅读 · 2019年10月13日

深度强化学习入门，这一篇就够了！

深度强化学习入门，这一篇就够了！

机器学习算法与Python学习

28+阅读 · 2018年8月17日

【干货】强化学习介绍

【干货】强化学习介绍

专知

12+阅读 · 2018年6月24日

资源 | 跟着Sutton经典教材学强化学习中的蒙特卡罗方法（代码实例）

资源 | 跟着Sutton经典教材学强化学习中的蒙特卡罗方法（代码实例）

大数据文摘

11+阅读 · 2018年6月12日

入门 | 通过 Q-learning 深入理解强化学习

入门 | 通过 Q-learning 深入理解强化学习

机器之心

12+阅读 · 2018年4月17日

这里是强化学习入门，的入门 | 绝对新手友好

这里是强化学习入门，的入门 | 绝对新手友好

量子位

5+阅读 · 2018年4月5日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

强化学习的入门之旅

强化学习的入门之旅

机器学习研究会

7+阅读 · 2018年2月12日

【强化学习实战】基于gym和tensorflow的强化学习算法实现

【强化学习实战】基于gym和tensorflow的强化学习算法实现

新智元

12+阅读 · 2017年9月12日

深度强化学习小白入门攻略篇

深度强化学习小白入门攻略篇

StuQ

5+阅读 · 2017年9月7日

Risk-Aware Active Inverse Reinforcement Learning

Risk-Aware Active Inverse Reinforcement Learning

Arxiv

8+阅读 · 2019年1月8日

Logically-Constrained Reinforcement Learning

Logically-Constrained Reinforcement Learning

Arxiv

3+阅读 · 2018年12月6日

Deep Reinforcement Learning: An Overview

Deep Reinforcement Learning: An Overview

Arxiv

17+阅读 · 2018年11月26日

Fast deep reinforcement learning using online adjustments from the past

Arxiv

3+阅读 · 2018年10月18日

Reinforcement Learning with Perturbed Rewards

Arxiv

4+阅读 · 2018年10月5日

GEP-PG: Decoupling Exploration and Exploitation in Deep Reinforcement Learning Algorithms

GEP-PG: Decoupling Exploration and Exploitation in Deep Reinforcement Learning Algorithms

Arxiv

4+阅读 · 2018年8月17日

Contrastive Explanations for Reinforcement Learning in terms of Expected Consequences

Contrastive Explanations for Reinforcement Learning in terms of Expected Consequences

Arxiv

5+阅读 · 2018年7月23日

Video Summarisation by Classification with Deep Reinforcement Learning

Video Summarisation by Classification with Deep Reinforcement Learning

Arxiv

4+阅读 · 2018年7月9日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

Implementing the Deep Q-Network

Arxiv

3+阅读 · 2017年11月20日

VIP会员

相关主题

相关VIP内容

《Python机器学习项目实战》，135页pdf带你小白入门机器学习

《Python机器学习项目实战》，135页pdf带你小白入门机器学习

专知会员服务

174+阅读 · 2020年6月6日

【圣经书】《强化学习导论(2nd)》电子书与代码，548页pdf

【圣经书】《强化学习导论(2nd)》电子书与代码，548页pdf

专知会员服务

208+阅读 · 2020年5月22日

《强化学习》简介小册，24页pdf

《强化学习》简介小册，24页pdf

专知会员服务

277+阅读 · 2020年4月19日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

【新书】Python强化学习-基于Tensorflow与Keras和OpenAI Gym实战, 177页pdf

【新书】Python强化学习-基于Tensorflow与Keras和OpenAI Gym实战, 177页pdf

专知会员服务

184+阅读 · 2020年1月17日

【强化学习轻松入门】《Reinforcement Learning 101》，Shweta Bhatt

【强化学习轻松入门】《Reinforcement Learning 101》，Shweta Bhatt

专知会员服务

50+阅读 · 2020年1月3日

【强化学习资源集合】Awesome Reinforcement Learning

【强化学习资源集合】Awesome Reinforcement Learning

专知会员服务

97+阅读 · 2019年12月23日

【强化学习】深度强化学习初学者指南

【强化学习】深度强化学习初学者指南

专知会员服务

182+阅读 · 2019年12月14日

【DeepMind-Nando de Freitas】强化学习教程，102页ppt，Reinforcement Learning

【DeepMind-Nando de Freitas】强化学习教程，102页ppt，Reinforcement Learning

专知会员服务

84+阅读 · 2019年11月15日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

热门VIP内容

开通专知VIP会员享更多权益服务

面向具身智能的多模态数据存储与检索：综述

《算法战争研究计划全景评估》35页

【CMU博士论文】水下三维视觉感知与生成

智能体战争：自主人工智能军备竞赛全景透视

相关资讯

强化学习扫盲贴：从Q-learning到DQN

强化学习扫盲贴：从Q-learning到DQN

夕小瑶的卖萌屋

52+阅读 · 2019年10月13日

深度强化学习入门，这一篇就够了！

深度强化学习入门，这一篇就够了！

机器学习算法与Python学习

28+阅读 · 2018年8月17日

【干货】强化学习介绍

【干货】强化学习介绍

专知

12+阅读 · 2018年6月24日

资源 | 跟着Sutton经典教材学强化学习中的蒙特卡罗方法（代码实例）

资源 | 跟着Sutton经典教材学强化学习中的蒙特卡罗方法（代码实例）

大数据文摘

11+阅读 · 2018年6月12日

入门 | 通过 Q-learning 深入理解强化学习

入门 | 通过 Q-learning 深入理解强化学习

机器之心

12+阅读 · 2018年4月17日

这里是强化学习入门，的入门 | 绝对新手友好

这里是强化学习入门，的入门 | 绝对新手友好

量子位

5+阅读 · 2018年4月5日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

强化学习的入门之旅

强化学习的入门之旅

机器学习研究会

7+阅读 · 2018年2月12日

【强化学习实战】基于gym和tensorflow的强化学习算法实现

【强化学习实战】基于gym和tensorflow的强化学习算法实现

新智元

12+阅读 · 2017年9月12日

深度强化学习小白入门攻略篇

深度强化学习小白入门攻略篇

StuQ

5+阅读 · 2017年9月7日

相关论文

Risk-Aware Active Inverse Reinforcement Learning

Risk-Aware Active Inverse Reinforcement Learning

Arxiv

8+阅读 · 2019年1月8日

Logically-Constrained Reinforcement Learning

Logically-Constrained Reinforcement Learning

Arxiv

3+阅读 · 2018年12月6日

Deep Reinforcement Learning: An Overview

Deep Reinforcement Learning: An Overview

Arxiv

17+阅读 · 2018年11月26日

Fast deep reinforcement learning using online adjustments from the past

Arxiv

3+阅读 · 2018年10月18日

Reinforcement Learning with Perturbed Rewards

Arxiv

4+阅读 · 2018年10月5日

GEP-PG: Decoupling Exploration and Exploitation in Deep Reinforcement Learning Algorithms

GEP-PG: Decoupling Exploration and Exploitation in Deep Reinforcement Learning Algorithms

Arxiv

4+阅读 · 2018年8月17日

Contrastive Explanations for Reinforcement Learning in terms of Expected Consequences

Contrastive Explanations for Reinforcement Learning in terms of Expected Consequences

Arxiv

5+阅读 · 2018年7月23日

Video Summarisation by Classification with Deep Reinforcement Learning

Video Summarisation by Classification with Deep Reinforcement Learning

Arxiv

4+阅读 · 2018年7月9日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

Implementing the Deep Q-Network

Arxiv

3+阅读 · 2017年11月20日

大家都在搜

CMU博士论文

无人机集群

久别重逢话双塔

国防科技创新

无人机航拍交通事故现场勘查处置系统——行业第一的警用事故处理软件

微信扫码咨询专知VIP会员