摘要

本文综述了迁移学习在强化学习问题设置中的应用。RL已经成为序列决策问题的关键的解决方案。随着RL在各个领域的快速发展。包括机器人技术和游戏,迁移学习是通过利用和迁移外部专业知识来促进学习过程来帮助RL的一项重要技术。在这篇综述中,我们回顾了在RL领域中迁移学习的中心问题,提供了一个最先进技术的系统分类。我们分析他们的目标,方法,应用,以及在RL框架下这些迁移学习技术将是可接近的。本文从RL的角度探讨了迁移学习与其他相关话题的关系,并探讨了RL迁移学习的潜在挑战和未来发展方向。

关键词:迁移学习,强化学习,综述,机器学习

介绍

强化学习(RL)被认为是解决连续决策任务的一种有效方法,在这种方法中,学习主体通过与环境相互作用,通过[1]来提高其性能。源于控制论并在计算机科学领域蓬勃发展的RL已被广泛应用于学术界和工业界,以解决以前难以解决的任务。此外,随着深度学习的快速发展,应用深度学习服务于学习任务的集成框架在近年来得到了广泛的研究和发展。DL和RL的组合结构称为深度强化学习[2](Deep Reinforcement Learning, DRL)。

DRL在机器人控制[3]、[4]、玩[5]游戏等领域取得了巨大的成功。在医疗保健系统[6]、电网[7]、智能交通系统[8]、[9]等领域也具有广阔的应用前景。

在这些快速发展的同时,DRL也面临着挑战。在许多强化学习应用中,环境模型通常是未知的,只有收集到足够的交互经验,agent才能利用其对环境的知识来改进其性能。由于环境反馈的部分可观察性、稀疏性或延迟性以及高维观察和/或行动空间等问题,学习主体在没有利用任何先验知识的情况下寻找好的策略是非常耗时的。因此,迁移学习作为一种利用外部专业知识来加速学习过程的技术,在强化学习中成为一个重要的课题。

在监督学习(SL)领域[10]中,TL得到了广泛的研究。与SL场景相比,由于MDP环境中涉及的组件更多,RL中的TL(尤其是DRL中的TL)通常更复杂。MDP的组件(知识来自何处)可能与知识转移到何处不同。此外,专家知识也可以采取不同的形式,以不同的方式转移,特别是在深度神经网络的帮助下。随着DRL的快速发展,以前总结用于RL的TL方法的努力没有包括DRL的最新发展。注意到所有这些不同的角度和可能性,我们全面总结了在深度强化学习(TL in DRL)领域迁移学习的最新进展。我们将把它们分成不同的子主题,回顾每个主题的理论和应用,并找出它们之间的联系。

本综述的其余部分组织如下:在第2节中,我们介绍了强化学习的背景,关键的DRL算法,并带来了这篇综述中使用的重要术语。我们还简要介绍了与TL不同但又紧密相关的相关研究领域(第2.3节)。

在第3节中,我们采用多种视角来评价TL方法,提供了对这些方法进行分类的不同方法(第3.1节),讨论了迁移源和目标之间的潜在差异(第3.2节),并总结了评价TL有效性的常用指标(第3.3节)。

第4节详细说明了DRL领域中最新的TL方法。特别是,所讨论的内容主要是按照迁移知识的形式组织的,如成型的奖励(4.1节)、先前的演示(4.2节)、专家策略(4.3节),或者按照转移发生的方式组织的,如任务间映射(4.4节)、学习可转移表示(4.5节和4.6节)等。我们在第5节讨论了TL在DRL中的应用,并在第6节提供了一些值得研究的未来展望。

成为VIP会员查看完整内容
152

相关内容

迁移学习(Transfer Learning)是一种机器学习方法,是把一个领域(即源领域)的知识,迁移到另外一个领域(即目标领域),使得目标领域能够取得更好的学习效果。迁移学习(TL)是机器学习(ML)中的一个研究问题,着重于存储在解决一个问题时获得的知识并将其应用于另一个但相关的问题。例如,在学习识别汽车时获得的知识可以在尝试识别卡车时应用。尽管这两个领域之间的正式联系是有限的,但这一领域的研究与心理学文献关于学习转移的悠久历史有关。从实践的角度来看,为学习新任务而重用或转移先前学习的任务中的信息可能会显着提高强化学习代理的样本效率。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【ICML2020】强化学习中基于模型的方法,279页ppt
专知会员服务
43+阅读 · 2020年10月26日
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
89+阅读 · 2020年9月28日
最新《深度持续学习》综述论文,32页pdf
专知会员服务
176+阅读 · 2020年9月7日
专知会员服务
111+阅读 · 2020年8月22日
元学习(meta learning) 最新进展综述论文
专知会员服务
275+阅读 · 2020年5月8日
最新《智能交通系统的深度强化学习》综述论文,22页pdf
【伯克利-滴滴出行】深度学习多源领域自适应综述论文
专知会员服务
53+阅读 · 2020年2月28日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
168+阅读 · 2020年2月8日
最新《分布式机器学习》论文综述最新DML进展,33页pdf
专知会员服务
117+阅读 · 2019年12月26日
NLP领域中的迁移学习现状
AI科技评论
7+阅读 · 2019年9月1日
迁移自适应学习最新综述,附21页论文下载
深度强化学习简介
专知
29+阅读 · 2018年12月3日
学界 | 综述论文:四大类深度迁移学习
机器之心
16+阅读 · 2018年9月15日
ICML2018 模仿学习教程
专知
6+阅读 · 2018年7月14日
【迁移学习】简述迁移学习在深度学习中的应用
产业智能官
15+阅读 · 2018年1月9日
迁移学习在深度学习中的应用
专知
23+阅读 · 2017年12月24日
范式大学|迁移学习实战:从算法到实践
机器学习研究会
15+阅读 · 2017年8月9日
Meta-Learning to Cluster
Arxiv
17+阅读 · 2019年10月30日
Generalization and Regularization in DQN
Arxiv
6+阅读 · 2019年1月30日
Risk-Aware Active Inverse Reinforcement Learning
Arxiv
7+阅读 · 2019年1月8日
Arxiv
7+阅读 · 2018年12月26日
Arxiv
4+阅读 · 2018年12月3日
Arxiv
135+阅读 · 2018年10月8日
Relational Deep Reinforcement Learning
Arxiv
10+阅读 · 2018年6月28日
VIP会员
相关VIP内容
【ICML2020】强化学习中基于模型的方法,279页ppt
专知会员服务
43+阅读 · 2020年10月26日
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
89+阅读 · 2020年9月28日
最新《深度持续学习》综述论文,32页pdf
专知会员服务
176+阅读 · 2020年9月7日
专知会员服务
111+阅读 · 2020年8月22日
元学习(meta learning) 最新进展综述论文
专知会员服务
275+阅读 · 2020年5月8日
最新《智能交通系统的深度强化学习》综述论文,22页pdf
【伯克利-滴滴出行】深度学习多源领域自适应综述论文
专知会员服务
53+阅读 · 2020年2月28日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
168+阅读 · 2020年2月8日
最新《分布式机器学习》论文综述最新DML进展,33页pdf
专知会员服务
117+阅读 · 2019年12月26日
相关资讯
NLP领域中的迁移学习现状
AI科技评论
7+阅读 · 2019年9月1日
迁移自适应学习最新综述,附21页论文下载
深度强化学习简介
专知
29+阅读 · 2018年12月3日
学界 | 综述论文:四大类深度迁移学习
机器之心
16+阅读 · 2018年9月15日
ICML2018 模仿学习教程
专知
6+阅读 · 2018年7月14日
【迁移学习】简述迁移学习在深度学习中的应用
产业智能官
15+阅读 · 2018年1月9日
迁移学习在深度学习中的应用
专知
23+阅读 · 2017年12月24日
范式大学|迁移学习实战:从算法到实践
机器学习研究会
15+阅读 · 2017年8月9日
相关论文
Meta-Learning to Cluster
Arxiv
17+阅读 · 2019年10月30日
Generalization and Regularization in DQN
Arxiv
6+阅读 · 2019年1月30日
Risk-Aware Active Inverse Reinforcement Learning
Arxiv
7+阅读 · 2019年1月8日
Arxiv
7+阅读 · 2018年12月26日
Arxiv
4+阅读 · 2018年12月3日
Arxiv
135+阅读 · 2018年10月8日
Relational Deep Reinforcement Learning
Arxiv
10+阅读 · 2018年6月28日
微信扫码咨询专知VIP会员