【IJCAI2020-华为诺亚】面向深度强化学习的策略迁移框架 - 专知

会员服务 ·

0

【IJCAI2020-华为诺亚】面向深度强化学习的策略迁移框架

2020 年 5 月 25 日 专知

Efficient Deep Reinforcement Learning via Adaptive Policy Transfer

图1：面向深度强化学习的策略迁移框架

深度强化学习解决很多复杂问题的能力已经有目共睹，然而，如何提升其学习效率是目前面临的主要问题之一。现有的很多方法已验证迁移学习可利用相关任务中获得的先验知识来加快强化学习任务的学习效率。然而，这些方法需要明确计算任务之间的相似度，或者只能选择一个适合的源策略，并利用它提供针对目标任务的指导性探索。目前仍缺少如何不显式的计算策略间相似性，自适应的利用源策略中的先验知识的方法。本文提出了一种通用的策略迁移框架（PTF），利用上述思想实现高效的强化学习。PTF通过将多策略迁移过程建模为选项（option）学习，option判断何时和哪种源策略最适合重用，何时终止该策略的重用。如图1所示，PTF分为两个子模块，智能体（agent）模块和option模块。Agent模块负责与环境交互，并根据环境的经验和option的指导进行策略更新。以PTF-A3C为例，agent模块的策略更新公式如下：

其中，agent模块对源策略的利用通过添加一个额外的损失函数，该损失函数计算agent策略与源策略之间的差异。根据option的终止函数，我们提出了一种自适应调整策略重用的机制，为损失函数设计了启发式的权重系数，避免负迁移的出现。Option模块负责option的值网络和终止网络的学习，option的值函数更新参考DQN的更新方式，最小化损失函数：

Option模块通过计算以下梯度更新终止网络的参数：

Option模块根据其值函数选择一个option和与其对应的源策略，用以给agent模块提供指导。Agent模块对其利用过程根据该option的终止概率停止，同时，option模块重新选择一个新的option和源策略，重复上述过程。PTF可以自然地与现有的深度强化学习方法结合。实验结果表明，PTF在离散和连续动作空间中的学习效率和最终性能方面，都优于原始的强化学习方法，并超越了最新的策略迁移方法（如图2所示）。文章链接： https://arxiv.org/abs/2002.08037。

【诺亚决策推理RL研究团队与天津大学、南京大学等联合研究工作】

参考：

https://mp.weixin.qq.com/s/B5w7LsI7bAyY-drCY384LA

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“RLAPT” 可以获取《【IJCAI2020-华为诺亚】面向深度强化学习的策略迁移框架》专知下载链接索引

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取5000+AI主题知识资源

登录查看更多

3

相关内容

策略迁移

【ICML2020-上海交大】多智能体确定性Q-Learning， Multi-Agent Determinantal Q-Learning

【ICML2020-上海交大】多智能体确定性Q-Learning， Multi-Agent Determinantal Q-Learning

专知会员服务

38+阅读 · 2020年6月3日

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

专知会员服务

58+阅读 · 2020年5月26日

【CVPR2020-CMU】无数据模型选择，一种深度框架潜力

【CVPR2020-CMU】无数据模型选择，一种深度框架潜力

专知会员服务

23+阅读 · 2020年4月12日

【WWW2020-中科大-滴滴】层次自适应上下文赌博机的资源约束推荐

【WWW2020-中科大-滴滴】层次自适应上下文赌博机的资源约束推荐

专知会员服务

21+阅读 · 2020年4月3日

【CVPR2020-Oral】用于任务感知的持续学习的条件信道门控网络

专知会员服务

21+阅读 · 2020年4月2日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning

专知会员服务

159+阅读 · 2020年2月29日

AAAI 2020 | 滴滴&东北大学提出自动结构化剪枝压缩算法框架，性能提升高达120倍

专知会员服务

30+阅读 · 2020年2月26日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

【斯坦福大学】Gradient Surgery for Multi-Task Learning

【斯坦福大学】Gradient Surgery for Multi-Task Learning

专知会员服务

47+阅读 · 2020年1月23日

【强化学习】深度强化学习初学者指南

【强化学习】深度强化学习初学者指南

专知会员服务

182+阅读 · 2019年12月14日

【南洋理工Xavier】深度强化学习，课件与代码，109页PPT

【南洋理工Xavier】深度强化学习，课件与代码，109页PPT

专知

53+阅读 · 2019年11月28日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

NLP博士答辩41页PPT，面向自然语言处理的神经网络迁移学习

NLP博士答辩41页PPT，面向自然语言处理的神经网络迁移学习

新智元

30+阅读 · 2019年3月1日

TensorFlow 2.0深度强化学习指南

TensorFlow 2.0深度强化学习指南

云栖社区

18+阅读 · 2019年2月1日

论文浅尝 | 基于深度强化学习的远程监督数据集的降噪

论文浅尝 | 基于深度强化学习的远程监督数据集的降噪

开放知识图谱

29+阅读 · 2019年1月17日

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

产业智能官

16+阅读 · 2018年12月27日

ACL 2018 论文解读 | 基于深度强化学习的远程监督关系抽取

ACL 2018 论文解读 | 基于深度强化学习的远程监督关系抽取

PaperWeekly

17+阅读 · 2018年12月5日

IJCAI Oral：弱监督实现精确目标检测，上交大提出协同学习框架

IJCAI Oral：弱监督实现精确目标检测，上交大提出协同学习框架

新智元

8+阅读 · 2018年5月14日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

【强化学习】强化学习入门以及代码实现

【强化学习】强化学习入门以及代码实现

产业智能官

18+阅读 · 2017年9月4日

A Survey on Bayesian Deep Learning

A Survey on Bayesian Deep Learning

Arxiv

64+阅读 · 2020年7月2日

Meta Learning for Task-Driven Video Summarization

Arxiv

6+阅读 · 2019年7月29日

Deep Node Ranking: an Algorithm for Structural Network Embedding and End-to-End Classification

Deep Node Ranking: an Algorithm for Structural Network Embedding and End-to-End Classification

Arxiv

3+阅读 · 2019年3月13日

HAQ: Hardware-Aware Automated Quantization

HAQ: Hardware-Aware Automated Quantization

Arxiv

6+阅读 · 2018年11月21日

Meta-Learning: A Survey

Arxiv

136+阅读 · 2018年10月8日

Unsupervised Meta-Learning for Reinforcement Learning

Arxiv

8+阅读 · 2018年6月12日

What we really want to find by Sentiment Analysis: The Relationship between Computational Models and Psychological State

Arxiv

6+阅读 · 2018年6月3日

Learning a Deep Listwise Context Model for Ranking Refinement

Arxiv

4+阅读 · 2018年4月16日

Learning to Adapt: Meta-Learning for Model-Based Control

Arxiv

9+阅读 · 2018年3月30日

End-to-End Multi-Task Learning with Attention

Arxiv

19+阅读 · 2018年3月28日

VIP会员

相关主题

深度强化学习

相关VIP内容

【ICML2020-上海交大】多智能体确定性Q-Learning， Multi-Agent Determinantal Q-Learning

【ICML2020-上海交大】多智能体确定性Q-Learning， Multi-Agent Determinantal Q-Learning

专知会员服务

38+阅读 · 2020年6月3日

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

专知会员服务

58+阅读 · 2020年5月26日

【CVPR2020-CMU】无数据模型选择，一种深度框架潜力

【CVPR2020-CMU】无数据模型选择，一种深度框架潜力

专知会员服务

23+阅读 · 2020年4月12日

【WWW2020-中科大-滴滴】层次自适应上下文赌博机的资源约束推荐

【WWW2020-中科大-滴滴】层次自适应上下文赌博机的资源约束推荐

专知会员服务

21+阅读 · 2020年4月3日

【CVPR2020-Oral】用于任务感知的持续学习的条件信道门控网络

专知会员服务

21+阅读 · 2020年4月2日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning

专知会员服务

159+阅读 · 2020年2月29日

AAAI 2020 | 滴滴&东北大学提出自动结构化剪枝压缩算法框架，性能提升高达120倍

专知会员服务

30+阅读 · 2020年2月26日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

【斯坦福大学】Gradient Surgery for Multi-Task Learning

【斯坦福大学】Gradient Surgery for Multi-Task Learning

专知会员服务

47+阅读 · 2020年1月23日

【强化学习】深度强化学习初学者指南

【强化学习】深度强化学习初学者指南

专知会员服务

182+阅读 · 2019年12月14日

热门VIP内容

开通专知VIP会员享更多权益服务

《复杂工程系统模型驱动设计决策支持系统：早期设计阶段挑战》最新138页

《日本陆上自卫队2040年作战方式与未来作战研究》最新23页slides

人工智能作为战争武器

《后勤保障》最新23页

相关资讯

【南洋理工Xavier】深度强化学习，课件与代码，109页PPT

【南洋理工Xavier】深度强化学习，课件与代码，109页PPT

专知

53+阅读 · 2019年11月28日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

NLP博士答辩41页PPT，面向自然语言处理的神经网络迁移学习

NLP博士答辩41页PPT，面向自然语言处理的神经网络迁移学习

新智元

30+阅读 · 2019年3月1日

TensorFlow 2.0深度强化学习指南

TensorFlow 2.0深度强化学习指南

云栖社区

18+阅读 · 2019年2月1日

论文浅尝 | 基于深度强化学习的远程监督数据集的降噪

论文浅尝 | 基于深度强化学习的远程监督数据集的降噪

开放知识图谱

29+阅读 · 2019年1月17日

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

产业智能官

16+阅读 · 2018年12月27日

ACL 2018 论文解读 | 基于深度强化学习的远程监督关系抽取

ACL 2018 论文解读 | 基于深度强化学习的远程监督关系抽取

PaperWeekly

17+阅读 · 2018年12月5日

IJCAI Oral：弱监督实现精确目标检测，上交大提出协同学习框架

IJCAI Oral：弱监督实现精确目标检测，上交大提出协同学习框架

新智元

8+阅读 · 2018年5月14日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

【强化学习】强化学习入门以及代码实现

【强化学习】强化学习入门以及代码实现

产业智能官

18+阅读 · 2017年9月4日

相关论文

A Survey on Bayesian Deep Learning

A Survey on Bayesian Deep Learning

Arxiv

64+阅读 · 2020年7月2日

Meta Learning for Task-Driven Video Summarization

Arxiv

6+阅读 · 2019年7月29日

Deep Node Ranking: an Algorithm for Structural Network Embedding and End-to-End Classification

Deep Node Ranking: an Algorithm for Structural Network Embedding and End-to-End Classification

Arxiv

3+阅读 · 2019年3月13日

HAQ: Hardware-Aware Automated Quantization

HAQ: Hardware-Aware Automated Quantization

Arxiv

6+阅读 · 2018年11月21日

Meta-Learning: A Survey

Arxiv

136+阅读 · 2018年10月8日

Unsupervised Meta-Learning for Reinforcement Learning

Arxiv

8+阅读 · 2018年6月12日

What we really want to find by Sentiment Analysis: The Relationship between Computational Models and Psychological State

Arxiv

6+阅读 · 2018年6月3日

Learning a Deep Listwise Context Model for Ranking Refinement

Arxiv

4+阅读 · 2018年4月16日

Learning to Adapt: Meta-Learning for Model-Based Control

Arxiv

9+阅读 · 2018年3月30日

End-to-End Multi-Task Learning with Attention

Arxiv

19+阅读 · 2018年3月28日

大家都在搜

久别重逢话双塔

CMU博士论文

无人机集群

国防科技创新

论文浅尝 - ICLR2020 | 通过神经逻辑归纳学习有效地解释

微信扫码咨询专知VIP会员