深度强化学习解决很多复杂问题的能力已经有目共睹,然而,如何提升其学习效率是目前面临的主要问题之一。现有的很多方法已验证迁移学习可利用相关任务中获得的先验知识来加快强化学习任务的学习效率。然而,这些方法需要明确计算任务之间的相似度,或者只能选择一个适合的源策略,并利用它提供针对目标任务的指导性探索。目前仍缺少如何不显式的计算策略间相似性,自适应的利用源策略中的先验知识的方法。本文提出了一种通用的策略迁移框架(PTF),利用上述思想实现高效的强化学习。PTF通过将多策略迁移过程建模为选项(option)学习,option判断何时和哪种源策略最适合重用,何时终止该策略的重用。如图1所示,PTF分为两个子模块,智能体(agent)模块和option模块。Agent模块负责与环境交互,并根据环境的经验和option的指导进行策略更新。

成为VIP会员查看完整内容
28

相关内容

深度强化学习 (DRL) 是一种使用深度学习技术扩展传统强化学习方法的一种机器学习方法。 传统强化学习方法的主要任务是使得主体根据从环境中获得的奖赏能够学习到最大化奖赏的行为。然而,传统无模型强化学习方法需要使用函数逼近技术使得主体能够学习出值函数或者策略。在这种情况下,深度学习强大的函数逼近能力自然成为了替代人工指定特征的最好手段并为性能更好的端到端学习的实现提供了可能。
《强化学习》简介小册,24页pdf
专知会员服务
274+阅读 · 2020年4月19日
【斯坦福大学】Gradient Surgery for Multi-Task Learning
专知会员服务
47+阅读 · 2020年1月23日
专知会员服务
88+阅读 · 2020年1月20日
【强化学习】深度强化学习初学者指南
专知会员服务
182+阅读 · 2019年12月14日
快速上手深度强化学习?学会TensorForce就够了
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
【强化学习】易忽略的强化学习知识之基础知识及MDP
产业智能官
19+阅读 · 2017年12月22日
干货|深度强化学习在面向任务的对话管理中的应用
全球人工智能
13+阅读 · 2017年9月14日
【强化学习】强化学习入门以及代码实现
产业智能官
18+阅读 · 2017年9月4日
详解TensorForce: 基于TensorFlow建立强化学习API
机械鸡
5+阅读 · 2017年7月22日
A Survey on Bayesian Deep Learning
Arxiv
63+阅读 · 2020年7月2日
Arxiv
6+阅读 · 2019年7月29日
Arxiv
6+阅读 · 2019年4月4日
Arxiv
13+阅读 · 2019年1月26日
HAQ: Hardware-Aware Automated Quantization
Arxiv
6+阅读 · 2018年11月21日
Arxiv
19+阅读 · 2018年3月28日
VIP会员
相关VIP内容
《强化学习》简介小册,24页pdf
专知会员服务
274+阅读 · 2020年4月19日
【斯坦福大学】Gradient Surgery for Multi-Task Learning
专知会员服务
47+阅读 · 2020年1月23日
专知会员服务
88+阅读 · 2020年1月20日
【强化学习】深度强化学习初学者指南
专知会员服务
182+阅读 · 2019年12月14日
相关论文
A Survey on Bayesian Deep Learning
Arxiv
63+阅读 · 2020年7月2日
Arxiv
6+阅读 · 2019年7月29日
Arxiv
6+阅读 · 2019年4月4日
Arxiv
13+阅读 · 2019年1月26日
HAQ: Hardware-Aware Automated Quantization
Arxiv
6+阅读 · 2018年11月21日
Arxiv
19+阅读 · 2018年3月28日
微信扫码咨询专知VIP会员