谷歌发布离线强化学习新范式,克服RL智能体只能在线训练难题,训练集相当于200多个ImageNet

2020 年 4 月 15 日 深度强化学习实验室

深度强化学习实验室报道

转载自: 机器之心

作者:Rishabh Agarwal等

编辑:DeepRL


为了避免 distribution mismatch,强化学习的训练一定要在线与环境进行交互吗?谷歌的这项最新研究从优化角度,为我们提供了离线强化学习研究新思路,即鲁棒的 RL 算法在足够大且多样化的离线数据集中训练可产生高质量的行为。该论文的训练数据集与代码均已开源。机器之心友情提示,训练数据集共包含 60 个雅达利游戏环境,谷歌宣称其大小约为 ImageNet 的 60 x 3.5 倍。



「异策略学习的潜力依然很诱人,但实现它的最佳方式依然是个谜。」—Sutton & Barto(两人为《强化学习导论》一书的作者)

多数强化学习算法都假设一个智能体主动与在线环境交互,从它自己搜集的经验中学习。这些算法在现实问题中的应用困难重重,因为从现实世界中进一步搜集的数据可能样本效率极低,还会带来意想不到的行为。而那些在仿真环境中运行的算法需要高保真模拟器,因此构建起来非常困难。然而,对于许多现实世界中的强化学习应用来说,之前已经搜集了很多交互数据,可以用于训练在上述现实问题中可行的强化学习智能体,同时通过结合之前的丰富经验来提高泛化性能。

现有的交互数据可以实现离线强化学习的有效训练,后者是完全的异策略(off-policy)强化学习设置,智能体从一个固定的数据集中学习,不与环境进行交互。

离线强化学习有助于:

1)使用现有数据预训练一个强化学习智能体;
2)基于强化学习算法利用固定交互数据集的能力对他们进行实验评估;
3)对现实世界的问题产生影响。然而,由于在线交互与固定数据集中的交互数据分布不匹配,离线强化学习面临很大的挑战。即,如果一个经过训练的智能体采取了与数据收集智能体不同的行动,我们不知道提供什么样的奖励。

具有在线交互的 RL 与离线 RL 的流程图比较。

在这篇名为「An Optimistic Perspective on Offline Reinforcement Learning」的论文中,根据 DQN 智能体记录下的经验,谷歌大脑团队的研究者提出了一种在 Atari 2600 游戏中进行离线强化学习的简单实验设置。他们展示了不通过对任何错配分布的显式修正,仍然可能训练出性能超越使用标准异策略 RL 算法收集数据的智能体。同时,研究者还提出了一种鲁棒的 RL 算法,在离线 RL 中表现出可观的结果,称作随机混合集成(random ensemble mixture,REM)。

总的来说,研究者提出一种全新的优化角度,即鲁棒的 RL 算法在足够大且多样化的离线数据集中训练可产生高质量的行为,巩固了新兴的数据驱动 RL 范式。为促进离线 RL 方法的开发与评估,研究者公开了他们的 DQN 回溯数据集并开源了论文的代码。

  • 论文链接:https://arxiv.org/pdf/1907.04543.pdf

  • 项目地址:https://github.com/google-research/batch_rl


异策略与离线强化学习基础

不同 RL 算法汇总如下:


在线的异策略 RL 智能体(如 DQN),仅通过接收来自游戏屏幕的图像信息,不需要其他任何关于此游戏的知识,在 Atari 2600 游戏中取得了与人类玩家同等的表现。在一个给定的环境状态下,DQN 根据如何最大化未来奖励(如 Q-values),对动作的有效性进行估计。

此外,当前使用价值函数分布的 RL 算法(如 QR-DQN)对所有可能的未来奖励的分布进行估计,而不是为每个状态-动作对估计单一的期望价值。DQN 与 QR-DQN 这样的智能体被看作是「在线」的算法,这是因为它们在优化策略与使用优化后的策略去收集更多数据之间不断交替迭代。

理论上异策略的 RL 智能体可以从任意策略收集的数据中进行学习,而不仅限于被优化的那个策略。然而,最近的研究工作显示,标准的异策略智能体在离线 RL 设定下将会发散或性能表现较差。为解决以上问题,之前的研究提出了一种正则化学习到的策略的方法,来使其策略更新在离线交互数据集附近。

为离线 RL 设计的 DQN 回溯数据集

研究者首先建立了 DQN 回溯数据集来重新审视离线 RL。该数据集使用 DQN 智能体在 60 个 Atari 2600 游戏中各训练两亿步得到,并使用了粘滞动作(sticky action)来使问题更具挑战性,即有 25% 的概率执行智能体之前的动作,而不是当前的动作。

在这 60 个游戏中,对于每一个游戏,研究者训练 5 个具有不同初始化参数的 DQN 智能体,并将训练中产生的所有 (state, action, reward, next state) 元组储存在 5 个回溯数据集中,总共产生 300 个数据集。

这个 DQN 回溯数据集之后被用于训练离线 RL 智能体,训练过程中并不需要任何与环境的交互。每一个游戏回溯数据集大约是 ImageNet 的 3.5 倍,包含在优化在线 DQN 时中间策略产生的所有样本。

在 Atari 游戏中使用 DQN 回溯数据集的离线 RL。

在 DQN 回溯数据集上训练离线智能体

研究者在 DQN 回溯数据集上对 DQN 和值函数分布 QR-DQN 的变体进行训练。尽管离线数据集包含了 DQN 智能体经历过的数据,并且这些数据会随着训练进程的推移而相应地改善,研究者对离线智能体和训练后得到的 best-performing 在线 DQN 智能体(即完全训练好的 DQN)的性能进行了比较。对于每一次游戏,他们使用在线 returns 对训练的 5 个离线智能体展开了评估,并得出了最佳的平均性能。

除了在少数游戏中相同数据量下得分高于完全训练(fully-trained)的在线 DQN 之外,离线 DQN 的表现均弱于后者。另一方面,离线 QR-DQN 在大多数 game 中的表现优于离线 DQN 和完全训练的 DQN。这些结果表明,利用标准深度 RL 算法来优化强大的离线智能体是可能实现的。并且,离线 QR-DQN 和 DQN 的表现差距表明它们利用离线数据的能力也存在着差异。

离线 DQN 结果。

离线 QR-DQN 结果。

两种鲁棒的离线 RL 智能体

在在线 RL 中,一个智能体选择它认为会带来高奖励(high reward)的动作,然后会接收纠错性反馈(corrective feedback)。此外,由于在离线 RL 中无法收集额外数据(additional data),所以有必要使用一个固定的数据集来推理出泛化能力。借助于使用模型集成来提升泛化能力的监督学习方法,研究者提出了以下两个新的离线 RL 智能体:

  • 集成 DQN 是 DQN 的一个简单扩展,它训练多个 Q 值估计并取平均值来进行评估;

  • 随机集成混合(Random Ensemble Mixture,REM)是一个易于实现的 DQN 扩展,它受到了 Dropout 的启发。REM 的核心理念是,如果可以得到 Q 值的多个估计,则 Q 值估计的加权组合(weighted combination)也成为 Q 值的一个估计。因此,REM 在每次迭代中随机组合多个 Q 值估计,并将这种随机组合用于鲁棒训练。


DQN、值函数分布 QR-DQN、具有相同多头机制 QR-DQN 架构的期望 RL 变体、集成 DQN 和 REM 的神经网络架构。

为了更高效地利用 DQN 回溯数据集,研究者在训练离线智能体时将训练迭代次数设置为在线 DQN 训练的 5 倍,性能表现如下图所示。离线 REM 要优于离线 DQN 和离线 QR-DQN。并且,与一个强大的值函数分布智能体,即完全训练的在线 C51 的性能比较表明,从离线 REM 获得的增益要高于 C51。

离线 REM 与基线方法的性能比较。

在 Atari 游戏中使用标准训练方案时,在线 REM 在标准在线 RL 设置下的性能能够与 QR-DQN 媲美。这表明我们可以利用从 DQN 回溯数据集和离线 RL 设置中获得的 insight 来构建有效的在线 RL 方法。

在线 REM 与基线方法的性能比较。

结果对比:离线强化学习中的重要因素

为什么之前的标准强化学习智能体在离线设置下屡屡失败?谷歌研究者总结了他们的研究与之前研究的几个重要差异:

  • 离线数据集大小。谷歌训练离线 QR-DQN 和 REM 所用的数据集是通过随机下采样整个 DQN 回溯数据集得到的简化数据,同时保持了相同的数据分布。与监督学习类似,模型性能随着数据集大小的增加而提升。REM 和 QR-DQN 只用整个数据集的 10% 就达到了与完全的 DQN 接近的性能;

  • 离线数据集的组成。研究者在 DQN 回溯数据集每个游戏的前 2000 万帧上训练了离线强化学习智能体。离线 REM 和 QR-DQN 在这个低质量数据集上的表现优于最佳策略(best policy),这表明如果数据集足够多样,标准强化学习智能体也能在离线设置下表现良好;

  • 离线算法的选择。有人认为,在离线状态下训练时,标准异策略智能体在连续控制任务中会表现不佳。然而,谷歌研究者发现,最近的连续控制智能体(如 TD3)在大型、多样化离线数据集上训练时,其性能与复杂离线智能体相当。


用较低质量数据集在离线设置下训练强化学习智能体。

展望

谷歌的这项研究表明,在从大量不同策略的离线数据中学习时,需要对神经网络泛化的作用进行严格描述。另一个重要的方向是通过对 DQN 回溯数据集进行下采样,利用各种数据收集策略对离线 RL 进行基准测试。

谷歌研究者目前采用的是在线策略评估,然而「真正的」离线 RL 需要离线策略评估来进行超参数调优和早停。最后,基于模型的 RL 和自监督学习方法也有望用于离线 RL。

谷歌博客介绍:http://ai.googleblog.com/2020/04/an-optimistic-perspective-on-offline.html



总结1:周志华 || AI领域如何做研究-写高水平论文

总结2:全网首发最全深度强化学习资料(永更)

总结3:  《强化学习导论》代码/习题答案大全

总结4:30+个必知的《人工智能》会议清单

总结52019年-57篇深度强化学习文章汇总

总结6:  万字总结 || 强化学习之路

总结7:万字总结 || 多智能体强化学习(MARL)大总结


第61篇:David Sliver 亲自讲解AlphaGo、Zero

第60篇:滴滴主办强化学习挑战赛:KDD Cup-2020

第59篇:Agent57在所有经典Atari 游戏中吊打人类

第58篇:清华开源「天授」强化学习平台

第57篇:Google发布"强化学习"框架"SEED RL"

第56篇:RL教父Sutton实现强人工智能算法的难易

第55篇:内推 ||  阿里2020年强化学习实习生招聘

第54篇:顶会 || 65篇"IJCAI"深度强化学习论文

第53篇:TRPO/PPO提出者John Schulman谈科研

第52篇:《强化学习》可复现性和稳健性,如何解决?

第51篇:强化学习和最优控制的《十个关键点》

第50篇:微软全球深度强化学习开源项目开放申请

第49篇:DeepMind发布强化学习库 RLax

第48篇:AlphaStar过程详解笔记

第47篇:Exploration-Exploitation难题解决方法

第46篇:DQN系列(2): Double DQN 算法

第45篇:DQN系列(1): Double Q-learning

第44篇:科研界最全工具汇总

第43篇:起死回生|| 如何rebuttal顶会学术论文?

第42篇:深度强化学习入门到精通资料综述

第41篇:顶会征稿 ||  ICAPS2020: DeepRL

第40篇:实习生招聘 || 华为诺亚方舟实验室

第39篇:滴滴实习生|| 深度强化学习方向

第38篇:AAAI-2020 || 52篇深度强化学习论文

第37篇:Call For Papers# IJCNN2020-DeepRL

第36篇:复现"深度强化学习"论文的经验之谈

第35篇:α-Rank算法之DeepMind及Huawei改进

第34篇:从Paper到Coding, DRL挑战34类游戏

第33篇:DeepMind-102页深度强化学习PPT

第32篇:腾讯AI Lab强化学习招聘(正式/实习)

第31篇:强化学习,路在何方?

第30篇:强化学习的三种范例

第29篇:框架ES-MAML:进化策略的元学习方法

第28篇:138页“策略优化”PPT--Pieter Abbeel

第27篇:迁移学习在强化学习中的应用及最新进展

第26篇:深入理解Hindsight Experience Replay

第25篇:10项【深度强化学习】赛事汇总

第24篇:DRL实验中到底需要多少个随机种子?

第23篇:142页"ICML会议"强化学习笔记

第22篇:通过深度强化学习实现通用量子控制

第21篇:《深度强化学习》面试题汇总

第20篇:《深度强化学习》招聘汇总(13家企业)

第19篇:解决反馈稀疏问题之HER原理与代码实现

第18篇:"DeepRacer" —顶级深度强化学习挑战赛

第17篇:AI Paper | 几个实用工具推荐

第16篇:AI领域:如何做优秀研究并写高水平论文?

第15篇: DeepMind开源三大新框架!
第14篇: 61篇NIPS2019DeepRL论文及部分解读
第13篇: OpenSpiel(28种DRL环境+24种DRL算法)
第12篇: 模块化和快速原型设计Huskarl DRL框架
第11篇: DRL在Unity自行车环境中配置与实践
第10篇: 解读72篇DeepMind深度强化学习论文
第9篇: 《AutoML》:一份自动化调参的指导
第8篇: ReinforceJS库(动态展示DP、TD、DQN)
第7篇: 10年NIPS顶会DRL论文(100多篇)汇总
第6篇: ICML2019-深度强化学习文章汇总
第5篇: 深度强化学习在阿里巴巴的技术演进
第4篇: 深度强化学习十大原则
第3篇: “超参数”自动化设置方法---DeepHyper
第2篇: 深度强化学习的加速方法
第1篇: 深入浅出解读"多巴胺(Dopamine)论文"、环境配置和实例分析


第14期论文:  2020-02-10(8篇)

第13期论文:2020-1-21(共7篇)

第12期论文:2020-1-10(Pieter Abbeel一篇,共6篇)

第11期论文:2019-12-19(3篇,一篇OpennAI)

第10期论文:2019-12-13(8篇)

第9期论文:2019-12-3(3篇)

第8期论文:2019-11-18(5篇)

第7期论文:2019-11-15(6篇)

第6期论文:2019-11-08(2篇)

第5期论文:2019-11-07(5篇,一篇DeepMind发表)

第4期论文:2019-11-05(4篇)

第3期论文:2019-11-04(6篇)

第2期论文:2019-11-03(3篇)

第1期论文:2019-11-02(5篇)


登录查看更多
0

相关内容

【DeepMind】CrossTransformers: 空间感知的小样本迁移
专知会员服务
39+阅读 · 2020年7月26日
多智能体深度强化学习的若干关键科学问题
专知会员服务
184+阅读 · 2020年5月24日
【圣经书】《强化学习导论(2nd)》电子书与代码,548页pdf
专知会员服务
201+阅读 · 2020年5月22日
《强化学习》简介小册,24页pdf
专知会员服务
271+阅读 · 2020年4月19日
【Texas 大学】强化学习领域的课程学习:一个框架和综述
专知会员服务
71+阅读 · 2020年3月22日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
172+阅读 · 2020年2月8日
【强化学习】深度强化学习初学者指南
专知会员服务
179+阅读 · 2019年12月14日
专知会员服务
205+阅读 · 2019年8月30日
AlphaGo之父David Silver最新演讲,传授强化学习的十大原则
强化学习十大原则
专知
12+阅读 · 2018年9月17日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
入门 | 从Q学习到DDPG,一文简述多种强化学习算法
【学界】基于平行视觉的特定场景下行人检测
GAN生成式对抗网络
6+阅读 · 2018年1月15日
【强化学习】如何开启强化学习的大门?
产业智能官
13+阅读 · 2017年9月10日
Parsimonious Bayesian deep networks
Arxiv
5+阅读 · 2018年10月17日
Arxiv
7+阅读 · 2018年9月27日
Multi-task Deep Reinforcement Learning with PopArt
Arxiv
4+阅读 · 2018年9月12日
Arxiv
8+阅读 · 2018年7月12日
Arxiv
7+阅读 · 2018年3月22日
VIP会员
相关VIP内容
【DeepMind】CrossTransformers: 空间感知的小样本迁移
专知会员服务
39+阅读 · 2020年7月26日
多智能体深度强化学习的若干关键科学问题
专知会员服务
184+阅读 · 2020年5月24日
【圣经书】《强化学习导论(2nd)》电子书与代码,548页pdf
专知会员服务
201+阅读 · 2020年5月22日
《强化学习》简介小册,24页pdf
专知会员服务
271+阅读 · 2020年4月19日
【Texas 大学】强化学习领域的课程学习:一个框架和综述
专知会员服务
71+阅读 · 2020年3月22日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
172+阅读 · 2020年2月8日
【强化学习】深度强化学习初学者指南
专知会员服务
179+阅读 · 2019年12月14日
专知会员服务
205+阅读 · 2019年8月30日
Top
微信扫码咨询专知VIP会员