【IJCAI2020-华为诺亚】面向深度强化学习的策略迁移框架 - 专知VIP

会员服务 ·

5

深度强化学习 · 策略迁移 ·

2020 年 5 月 25 日

【IJCAI2020-华为诺亚】面向深度强化学习的策略迁移框架

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

深度强化学习解决很多复杂问题的能力已经有目共睹，然而，如何提升其学习效率是目前面临的主要问题之一。现有的很多方法已验证迁移学习可利用相关任务中获得的先验知识来加快强化学习任务的学习效率。然而，这些方法需要明确计算任务之间的相似度，或者只能选择一个适合的源策略，并利用它提供针对目标任务的指导性探索。目前仍缺少如何不显式的计算策略间相似性，自适应的利用源策略中的先验知识的方法。本文提出了一种通用的策略迁移框架（PTF），利用上述思想实现高效的强化学习。PTF通过将多策略迁移过程建模为选项（option）学习，option判断何时和哪种源策略最适合重用，何时终止该策略的重用。如图1所示，PTF分为两个子模块，智能体（agent）模块和option模块。Agent模块负责与环境交互，并根据环境的经验和option的指导进行策略更新。

成为VIP会员查看完整内容

28

相关内容

深度强化学习

深度强化学习

深度强化学习 (DRL) 是一种使用深度学习技术扩展传统强化学习方法的一种机器学习方法。传统强化学习方法的主要任务是使得主体根据从环境中获得的奖赏能够学习到最大化奖赏的行为。然而，传统无模型强化学习方法需要使用函数逼近技术使得主体能够学习出值函数或者策略。在这种情况下，深度学习强大的函数逼近能力自然成为了替代人工指定特征的最好手段并为性能更好的端到端学习的实现提供了可能。

【ICML2020-上海交大】多智能体确定性Q-Learning， Multi-Agent Determinantal Q-Learning

【ICML2020-上海交大】多智能体确定性Q-Learning， Multi-Agent Determinantal Q-Learning

专知会员服务

38+阅读 · 2020年6月3日

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

专知会员服务

58+阅读 · 2020年5月26日

《强化学习》简介小册，24页pdf

《强化学习》简介小册，24页pdf

专知会员服务

280+阅读 · 2020年4月19日

【WWW2020-中科大-滴滴】层次自适应上下文赌博机的资源约束推荐

【WWW2020-中科大-滴滴】层次自适应上下文赌博机的资源约束推荐

专知会员服务

21+阅读 · 2020年4月3日

【CVPR2020-Oral】用于任务感知的持续学习的条件信道门控网络

专知会员服务

21+阅读 · 2020年4月2日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning

专知会员服务

159+阅读 · 2020年2月29日

AAAI 2020 | 滴滴&东北大学提出自动结构化剪枝压缩算法框架，性能提升高达120倍

专知会员服务

30+阅读 · 2020年2月26日

【斯坦福大学】Gradient Surgery for Multi-Task Learning

【斯坦福大学】Gradient Surgery for Multi-Task Learning

专知会员服务

47+阅读 · 2020年1月23日

【基于元学习的推荐系统】5篇相关论文

专知会员服务

88+阅读 · 2020年1月20日

【强化学习】深度强化学习初学者指南

【强化学习】深度强化学习初学者指南

专知会员服务

184+阅读 · 2019年12月14日

快速上手深度强化学习？学会TensorForce就够了

快速上手深度强化学习？学会TensorForce就够了

新智元

6+阅读 · 2019年3月27日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

NLP博士答辩41页PPT，面向自然语言处理的神经网络迁移学习

NLP博士答辩41页PPT，面向自然语言处理的神经网络迁移学习

新智元

30+阅读 · 2019年3月1日

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

产业智能官

16+阅读 · 2018年12月27日

ACL 2018 论文解读 | 基于深度强化学习的远程监督关系抽取

ACL 2018 论文解读 | 基于深度强化学习的远程监督关系抽取

PaperWeekly

17+阅读 · 2018年12月5日

【强化学习】易忽略的强化学习知识之基础知识及MDP

【强化学习】易忽略的强化学习知识之基础知识及MDP

产业智能官

19+阅读 · 2017年12月22日

干货｜深度强化学习在面向任务的对话管理中的应用

干货｜深度强化学习在面向任务的对话管理中的应用

全球人工智能

13+阅读 · 2017年9月14日

【强化学习】强化学习入门以及代码实现

【强化学习】强化学习入门以及代码实现

产业智能官

18+阅读 · 2017年9月4日

详解TensorForce: 基于TensorFlow建立强化学习API

详解TensorForce: 基于TensorFlow建立强化学习API

机械鸡

5+阅读 · 2017年7月22日

深度 | 基于TensorFlow打造强化学习API：TensorForce是怎样炼成的？

深度 | 基于TensorFlow打造强化学习API：TensorForce是怎样炼成的？

机器之心

4+阅读 · 2017年7月16日

A Survey on Bayesian Deep Learning

A Survey on Bayesian Deep Learning

Arxiv

64+阅读 · 2020年7月2日

MetaSelector: Meta-Learning for Recommendation with User-Level Adaptive Model Selection

Arxiv

4+阅读 · 2020年2月13日

Shallow Domain Adaptive Embeddings for Sentiment Analysis

Arxiv

5+阅读 · 2019年8月16日

Meta Learning for Task-Driven Video Summarization

Arxiv

6+阅读 · 2019年7月29日

An End-to-End Baseline for Video Captioning

Arxiv

6+阅读 · 2019年4月4日

Few-shot Learning with Meta Metric Learners

Arxiv

13+阅读 · 2019年1月26日

HAQ: Hardware-Aware Automated Quantization

HAQ: Hardware-Aware Automated Quantization

Arxiv

6+阅读 · 2018年11月21日

Unsupervised Meta-Learning for Reinforcement Learning

Arxiv

8+阅读 · 2018年6月12日

Learning to Adapt: Meta-Learning for Model-Based Control

Arxiv

9+阅读 · 2018年3月30日

End-to-End Multi-Task Learning with Attention

Arxiv

19+阅读 · 2018年3月28日

VIP会员

相关主题

深度强化学习

相关VIP内容

【ICML2020-上海交大】多智能体确定性Q-Learning， Multi-Agent Determinantal Q-Learning

【ICML2020-上海交大】多智能体确定性Q-Learning， Multi-Agent Determinantal Q-Learning

专知会员服务

38+阅读 · 2020年6月3日

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

专知会员服务

58+阅读 · 2020年5月26日

《强化学习》简介小册，24页pdf

《强化学习》简介小册，24页pdf

专知会员服务

280+阅读 · 2020年4月19日

【WWW2020-中科大-滴滴】层次自适应上下文赌博机的资源约束推荐

【WWW2020-中科大-滴滴】层次自适应上下文赌博机的资源约束推荐

专知会员服务

21+阅读 · 2020年4月3日

【CVPR2020-Oral】用于任务感知的持续学习的条件信道门控网络

专知会员服务

21+阅读 · 2020年4月2日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning

专知会员服务

159+阅读 · 2020年2月29日

AAAI 2020 | 滴滴&东北大学提出自动结构化剪枝压缩算法框架，性能提升高达120倍

专知会员服务

30+阅读 · 2020年2月26日

【斯坦福大学】Gradient Surgery for Multi-Task Learning

【斯坦福大学】Gradient Surgery for Multi-Task Learning

专知会员服务

47+阅读 · 2020年1月23日

【基于元学习的推荐系统】5篇相关论文

专知会员服务

88+阅读 · 2020年1月20日

【强化学习】深度强化学习初学者指南

【强化学习】深度强化学习初学者指南

专知会员服务

184+阅读 · 2019年12月14日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型智能体强化学习：全景综述

《城市滨海地区：理解复杂多变环境下的指挥控制框架》50页报告

【伯克利博士论文】从推理服务到训练：面向大规模 LLM 智能体的高效系统

美空军“顶点2025”实验：推进AI在C2、动态目标锁定与联盟集成中的应用

相关资讯

快速上手深度强化学习？学会TensorForce就够了

快速上手深度强化学习？学会TensorForce就够了

新智元

6+阅读 · 2019年3月27日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

NLP博士答辩41页PPT，面向自然语言处理的神经网络迁移学习

NLP博士答辩41页PPT，面向自然语言处理的神经网络迁移学习

新智元

30+阅读 · 2019年3月1日

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

产业智能官

16+阅读 · 2018年12月27日

ACL 2018 论文解读 | 基于深度强化学习的远程监督关系抽取

ACL 2018 论文解读 | 基于深度强化学习的远程监督关系抽取

PaperWeekly

17+阅读 · 2018年12月5日

【强化学习】易忽略的强化学习知识之基础知识及MDP

【强化学习】易忽略的强化学习知识之基础知识及MDP

产业智能官

19+阅读 · 2017年12月22日

干货｜深度强化学习在面向任务的对话管理中的应用

干货｜深度强化学习在面向任务的对话管理中的应用

全球人工智能

13+阅读 · 2017年9月14日

【强化学习】强化学习入门以及代码实现

【强化学习】强化学习入门以及代码实现

产业智能官

18+阅读 · 2017年9月4日

详解TensorForce: 基于TensorFlow建立强化学习API

详解TensorForce: 基于TensorFlow建立强化学习API

机械鸡

5+阅读 · 2017年7月22日

深度 | 基于TensorFlow打造强化学习API：TensorForce是怎样炼成的？

深度 | 基于TensorFlow打造强化学习API：TensorForce是怎样炼成的？

机器之心

4+阅读 · 2017年7月16日

相关论文

A Survey on Bayesian Deep Learning

A Survey on Bayesian Deep Learning

Arxiv

64+阅读 · 2020年7月2日

MetaSelector: Meta-Learning for Recommendation with User-Level Adaptive Model Selection

Arxiv

4+阅读 · 2020年2月13日

Shallow Domain Adaptive Embeddings for Sentiment Analysis

Arxiv

5+阅读 · 2019年8月16日

Meta Learning for Task-Driven Video Summarization

Arxiv

6+阅读 · 2019年7月29日

An End-to-End Baseline for Video Captioning

Arxiv

6+阅读 · 2019年4月4日

Few-shot Learning with Meta Metric Learners

Arxiv

13+阅读 · 2019年1月26日

HAQ: Hardware-Aware Automated Quantization

HAQ: Hardware-Aware Automated Quantization

Arxiv

6+阅读 · 2018年11月21日

Unsupervised Meta-Learning for Reinforcement Learning

Arxiv

8+阅读 · 2018年6月12日

Learning to Adapt: Meta-Learning for Model-Based Control

Arxiv

9+阅读 · 2018年3月30日

End-to-End Multi-Task Learning with Attention

Arxiv

19+阅读 · 2018年3月28日

微信扫码咨询专知VIP会员