强化学习常用算法+实际应用 ,必须get这些核心要点!

2020 年 1 月 4 日 新智元




  新智元报道 

编辑:元子   
【新智元导读】强化学习(RL)是现代人工智能领域中最热门的研究主题之一,其普及度还在不断增长。本文介绍了开始学习RL需要了解的核心要素。戳右边链接上 新智元小程序 了解更多!

强化学习是现代人工智能领域中最热门的研究主题之一,其普及度还在不断增长。  


强化学习是什么?和其他机器学习技术有何区别?

强化学习是一种机器学习技术,它使代理能够使用自身行为和经验的反馈通过反复试验在交互式环境中学习。

尽管监督学习和强化学习都使用输入和输出之间的映射,但监督学习提供给智能体的反馈是执行任务的正确动作集,而强化学习则将奖惩作为正面和负面行为的信号。  

无监督学习在目标方面有所不同。 无监督学习的目标是发现数据点之间的相似点和差异,而在强化学习的情况下,目标是找到合适的行为模型,以最大化智能体的总累积奖励。  

下图说明了通 用强化学习模型的动作奖励反馈回路。

如何制定基本的强化学习问题?

一些描述强化学习问题基本要素的关键术语是:

  • 环境-智能体在其中运行的物理状态

  • 状态-智能体的当前状况

  • 奖励-来自环境的反馈

  • 策略-映射智能体状态到动作的方法

  • 值-智能体在特定状态下采取的行动将获得的未来奖励


强化学习问题可以通过游戏来最好地解释。 让我们以吃豆人游戏为例,智能体(PacMan)的目标是在网格中吃掉食物,同时避开途中出现的鬼魂。  

在这种情况下,网格世界是智能体所作用的交互式环境。 智能体成功迟到豆豆会得到奖励,如果智能体被幽灵杀死(输掉了游戏)则会被惩罚。  

状态值得是智能体在网格世界中的位置,总累积奖励是赢得比赛。


为了建立最优政策,智能体面临探索新状态的困境,同时又要使其整体收益最大化,这称为“探索与开发”的权衡。

为了平衡两者,最佳的整体策略可能涉及短期牺牲。 因此,智能体应该收集足够的信息,以便将来做出最佳的总体决策。

马尔可夫决策过程(MDP)是描述强化学习环境的数学框架,几乎所有强化学习问题都可以使用MDP来表述。

一个MDP由一组有限的环境状态S,在每种状态下的一组可能的动作A,一个实值奖励函数R和一个过渡模型P(s’,s | a)组成。

但是,现实环境更可能缺少任何有关环境动力学的先验知识。 在这种情况下,无模型强化学习方法非常有用。

Q学习是一种常用的无模型方法,可用于构建自己玩的PacMan智能体。 它围绕更新Q值的概念展开,Q值表示在状态s中执行动作a的值。 以下值更新规则是Q学习算法的核心。


什么是最常用的强化学习算法?

Q学习和SARSA(状态-行动-奖励-状态-行动)是两种常用的无模型强化学习算法。 它们的勘探策略不同,而利用策略却相似。  

Q-学习是强化学习的一种方法。 Q-学习就是要记录下学习过的政策,因而告诉智能体什么情况下采取什么行动会有最大的奖励值。 Q-学习不需要对环境进行建模,即使是对带有随机因素的转移函数或者奖励函数也不需要进行特别的改动就可以进行。

对于任何有限的马可夫决策过程(FMDP),Q-学习可以找到一个可以最大化所有步骤的奖励期望的策略,在给定一个部分随机的策略和无限的探索时间,Q-学习可以给出一个最佳的动作选择策略。 “Q”这个字母在强化学习中表示一个动作的品质(quality)。

而SARSA是一种策略上方法,在其中根据其当前操作a得出的值来学习值。 这两种方法易于实现,但缺乏通用性,因为它们无法估计未知状态的值,这可以通过更高级的算法来克服,例如使用神经网络来估计Q值的Deep Q-Networks(DQNs)。 但是DQN只能处理离散的低维操作空间。

深度确定性策略梯度(DDPG)是一种无模型,脱离策略,actor-critic的算法,它通过在高维连续操作空间中学习策略来解决此问题。 下图是actor-critic体系结构的表示。

强化学习的实际应用是什么?

由于强化学习需要大量数据,因此它最适用于容易获得模拟数据的领域,例如游戏性,机器人技术。

强化学习被广泛用于构建用于玩计算机游戏的AI。 AlphaGo Zero是第一个在古代中国的围棋游戏中击败世界冠军的计算机程序。 其他包括ATARI游戏,西洋双陆棋等。 在机器人技术和工业自动化中,强化学习用于使机器人自己创建有效的自适应控制系统,该系统从自身的经验和行为中学习。 DeepMind在“通过异步策略更新进行机器人操纵的深度强化学习”方面的工作就是一个很好的例子。

强化学习的其他应用包括抽象文本摘要引擎,可以从用户交互中学习并随时间改进的对话智能体(文本,语音),学习医疗保健中的最佳治疗策略以及用于在线股票交易的基于强化学习的智能体。

登录查看更多
0

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
多智能体深度强化学习的若干关键科学问题
专知会员服务
186+阅读 · 2020年5月24日
《强化学习》简介小册,24页pdf
专知会员服务
272+阅读 · 2020年4月19日
《强化学习—使用 Open AI、TensorFlow和Keras实现》174页pdf
专知会员服务
136+阅读 · 2020年3月1日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
172+阅读 · 2020年2月8日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
【强化学习】深度强化学习初学者指南
专知会员服务
179+阅读 · 2019年12月14日
强化学习的未来——第一部分
AI研习社
9+阅读 · 2019年1月2日
一文了解强化学习
AI100
15+阅读 · 2018年8月20日
深度强化学习入门,这一篇就够了!
机器学习算法与Python学习
27+阅读 · 2018年8月17日
论强化学习的根本缺陷
AI科技评论
11+阅读 · 2018年7月24日
【干货】强化学习介绍
人工智能学家
13+阅读 · 2018年6月24日
入门 | 通过 Q-learning 深入理解强化学习
机器之心
12+阅读 · 2018年4月17日
干货|浅谈强化学习的方法及学习路线
机器学习算法与Python学习
16+阅读 · 2018年3月28日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
【强化学习】强化学习入门以及代码实现
产业智能官
18+阅读 · 2017年9月4日
技术 | 强化学习入门以及代码实现
AI100
51+阅读 · 2017年8月26日
Arxiv
13+阅读 · 2020年4月12日
Arxiv
6+阅读 · 2019年7月29日
Arxiv
3+阅读 · 2018年10月8日
Hierarchical Deep Multiagent Reinforcement Learning
Arxiv
8+阅读 · 2018年9月25日
Arxiv
7+阅读 · 2018年5月23日
Arxiv
11+阅读 · 2018年4月25日
Arxiv
19+阅读 · 2018年3月28日
VIP会员
相关VIP内容
多智能体深度强化学习的若干关键科学问题
专知会员服务
186+阅读 · 2020年5月24日
《强化学习》简介小册,24页pdf
专知会员服务
272+阅读 · 2020年4月19日
《强化学习—使用 Open AI、TensorFlow和Keras实现》174页pdf
专知会员服务
136+阅读 · 2020年3月1日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
172+阅读 · 2020年2月8日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
【强化学习】深度强化学习初学者指南
专知会员服务
179+阅读 · 2019年12月14日
相关资讯
强化学习的未来——第一部分
AI研习社
9+阅读 · 2019年1月2日
一文了解强化学习
AI100
15+阅读 · 2018年8月20日
深度强化学习入门,这一篇就够了!
机器学习算法与Python学习
27+阅读 · 2018年8月17日
论强化学习的根本缺陷
AI科技评论
11+阅读 · 2018年7月24日
【干货】强化学习介绍
人工智能学家
13+阅读 · 2018年6月24日
入门 | 通过 Q-learning 深入理解强化学习
机器之心
12+阅读 · 2018年4月17日
干货|浅谈强化学习的方法及学习路线
机器学习算法与Python学习
16+阅读 · 2018年3月28日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
【强化学习】强化学习入门以及代码实现
产业智能官
18+阅读 · 2017年9月4日
技术 | 强化学习入门以及代码实现
AI100
51+阅读 · 2017年8月26日
相关论文
Arxiv
13+阅读 · 2020年4月12日
Arxiv
6+阅读 · 2019年7月29日
Arxiv
3+阅读 · 2018年10月8日
Hierarchical Deep Multiagent Reinforcement Learning
Arxiv
8+阅读 · 2018年9月25日
Arxiv
7+阅读 · 2018年5月23日
Arxiv
11+阅读 · 2018年4月25日
Arxiv
19+阅读 · 2018年3月28日
Top
微信扫码咨询专知VIP会员