强化学习十大原则

会员服务 ·

强化学习十大原则

2018 年 9 月 17 日 专知

【导读】强化学习是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。David Sliver 总结了强化学习的十大原则，以指导强化学习的良好进行。

作者 | David Sliver

编译 | Xiaowen

原则#1：评估（Evaluation）推动进步

客观，量化的评估推动了进步：

●评估指标的选择决定了进度的方向

●可以说是项目过程中最重要的单一决策

排行榜驱动的（Leaderboard-driven）研究：

●确保评估指标对应最终目标

●避免主观评估（例如人工检查）

假设驱动的（Hypothesis-driven）研究：

●提出一个假设：

○“Double-Q学习优于Q-learning，因为它减少了向上偏差（upward bias）”

●在广泛的条件下验证假设

●比较相似的现有stat-of-the-art技术

●寻求理解而不是排行榜绩效

原则#2：可伸缩性（Scalability）决定成功

●算法的可伸缩性是其相对于资源的性能梯度

○给定更多资源，性能如何提高？

●资源可以是计算（computation），内存（memory）或数据（data）

●算法的可扩展性最终决定了它的成功与否

○图像

●可伸缩性始终（最终）比起点更重要

●给定无限资源，（最终）优化算法是最佳的

原则#3：通用性（Generality）未来证明算法

●不同的RL环境中，算法的通用性表现不同

●避免过度拟合当前任务

●寻求推广到未知未来环境的算法

●我们无法预测未来，但是：

○未来的任务可能至少与当前任务一样复杂

○当前任务遇到的困难很可能会增加

●结论：针对RL环境进行测试

原则 #4：信任Agent的经验

●经验（观察observations，行动actions，奖励rewards）是RL的数据

○

●相信经验是唯一的知识来源

○总是有诱惑力来利用我们的人文专长（人类数据，功能，启发式，约束，抽象，域操作）

●从经验中学习似乎是不可能的

○接受RL的核心问题很难

○这是人工智能的核心问题

○值得努力

●从长远来看，从经验中学习总能赢得胜利

原则＃5：状态（State）是主观的

●Agents应根据自己的经验构建自己的状态

○

●Agent状态是先前状态和新观察的函数

○

●它是循环神经网络的隐藏状态

●从未根据环境的“真实”状态定义

原则＃6：控制流(Control theStream)

●Agents生活在丰富的感觉运动数据流中

○Observations流入Agent

○Actions流出Agent

●Agent的操作会影响流

●控制功能=>控制流

●控制流=>控制未来

●控制未来=>可以最大化任何奖励

原则＃7：值函数（Value Functions）建模世界

为什么要使用值函数？

●价值功能有效地总结/缓存未来

●将计划减少到恒定时间查找，而不是指数前瞻

●可以独立于其跨度进行计算和学习

学习多种值函数：

●有效地模拟世界的许多方面（控制流）

○包括后续状态变量

●多个时间尺度

避免在原始时间步骤对世界进行建模。

原则＃8：规划（Planning）：从想象的经验中学习

一种有效的规划方法：

●想象一下接下来会发生什么

○模型中状态的样本轨迹

●从想象的经验中学习

○使用我们应用于实际实验的相同RL算法

现在，关注值函数近似值。

原则＃9：授权函数近似器（FunctionApproximator）

●差异化的网络架构是强大的工具，可以促进：

○丰富的状态表示

○不同的记忆

○不同的计划

○分层控制

○...

●将算法复杂性推入网络架构

○降低算法的复杂性（如何更新参数）

○提高架构的表现力（参数的作用）

原则＃10：学会学习（Learn toLearn）

人工智能的历史显示了明确的进展方向：

●第一代：良好的老式人工智能

○手工预测

○什么都不学

●第二代：浅学习

○手工功能

○学习预测

●第3代：深度学习

○手工算法（优化器，目标，架构......）

○端到端地学习功能和预测

●第4代：元学习

○无手工

○端到端学习算法和功能以及预测

请关注专知公众号（扫一扫最下面专知二维码，或者点击上方蓝色专知），

后台回复“PDRL” 就可以获取教程PDF下载链接~

原文链接：

http://www.deeplearningindaba.com/uploads/1/0/2/6/102657286/principles_of_deep_rl.pdf

-END-

专 · 知

人工智能领域26个主题知识资料全集获取与加入专知人工智能服务群: 欢迎微信扫一扫加入专知人工智能知识星球群，获取专业知识教程视频资料和与专家交流咨询！

请PC登录www.zhuanzhi.ai或者点击阅读原文，注册登录专知，获取更多AI知识资料！

请加专知小助手微信（扫一扫如下二维码添加），加入专知主题群（请备注主题类型：AI、NLP、CV、 KG等）交流~

AI 项目技术 & 商务合作：bd@zhuanzhi.ai, 或扫描上面二维码联系！

请关注专知公众号，获取人工智能的专业知识！

点击“阅读原文”，使用专知

登录查看更多

知识荟萃

精品入门和进阶教程、论文和代码整理等

查看相关VIP内容、论文、资讯等

工程领域大数据和人工智能原则

专知会员服务

125+阅读 · 2020年3月26日

【Texas 大学】强化学习领域的课程学习:一个框架和综述

专知会员服务

73+阅读 · 2020年3月22日

【综述】自动驾驶领域中的强化学习，附18页论文下载

专知会员服务

176+阅读 · 2020年2月8日

【新书】Python强化学习-基于Tensorflow与Keras和OpenAI Gym实战, 177页pdf

专知会员服务

184+阅读 · 2020年1月17日

2019必读的十大深度强化学习论文

专知会员服务

59+阅读 · 2020年1月16日

【强化学习】深度强化学习初学者指南

专知会员服务

182+阅读 · 2019年12月14日

【元学习 | 论文】CoRL19，元世界:多任务和元强化学习的基准和评估，伯克利分校，Google

专知会员服务

27+阅读 · 2019年11月21日

MIT新书《强化学习与最优控制》

专知会员服务

280+阅读 · 2019年10月9日

【综述】多智能体深度强化学习综述，附49页PDF

专知会员服务

213+阅读 · 2019年8月30日

【ALT 2019 Tutorials】强化学习的探索性开发（Exploration-Exploitation in Reinforcement Learning）

专知会员服务

34+阅读 · 2019年3月21日

层级强化学习概念简介

CreateAMind

19+阅读 · 2019年6月9日

谷歌的 PlaNet 强化学习网络

AI研习社

4+阅读 · 2019年5月11日

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

【强化学习】强化学习到深度强化学习、强化学习商业用例

产业智能官

30+阅读 · 2019年2月9日

强化学习精品书籍

平均机器

26+阅读 · 2019年1月2日

AlphaGo之父David Silver最新演讲，传授强化学习的十大原则

深度学习世界

3+阅读 · 2018年9月21日

入门 | 通过 Q-learning 深入理解强化学习

机器之心

12+阅读 · 2018年4月17日

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

关于强化学习（附代码，练习和解答）

深度学习

37+阅读 · 2018年1月30日

【强化学习】Keras+OpenAI强化学习实践：行为-评判模型

产业智能官

4+阅读 · 2017年8月17日

CURL: Contrastive Unsupervised Representations for Reinforcement Learning

Arxiv

17+阅读 · 2020年4月28日

Pre-training Text Representations as Meta Learning

Arxiv

13+阅读 · 2020年4月12日

The Consciousness Prior

Arxiv

4+阅读 · 2019年12月2日

Meta-Learning with Implicit Gradients

Arxiv

13+阅读 · 2019年9月10日

Accelerated Methods for Deep Reinforcement Learning

Arxiv

6+阅读 · 2019年1月10日

IRLAS: Inverse Reinforcement Learning for Architecture Search

Arxiv

4+阅读 · 2018年12月14日

Efficient Eligibility Traces for Deep Reinforcement Learning

Arxiv

4+阅读 · 2018年10月23日

Reinforcement Learning with Perturbed Rewards

Arxiv

4+阅读 · 2018年10月5日

Hierarchical Deep Multiagent Reinforcement Learning

Arxiv

8+阅读 · 2018年9月25日

Paraphrase Generation with Deep Reinforcement Learning

Arxiv

4+阅读 · 2018年8月23日

VIP会员

强化学习十大原则

相关内容

知识荟萃

更多