学界 | 复现深度强化学习结果所面临的挑战与建议

2017 年 9 月 22 日 机器之心

选自arXiv

机器之心编译

参与:蒋思源、路雪


本论文对强化学习顶尖试验结果的复现性进行了详细的探讨,并讨论了超参数和随机种子等变量对强化学习模型复现性的重要影响。除此之外,作者还对复现实验所面临的挑战和实验技巧做出了详细的论述。机器之心简要介绍了该论文。


论文地址:https://arxiv.org/abs/1709.06560



近年来,深度强化学习(RL)被用于解决很多领域中的难题,并取得了令人瞩目的成绩。为了保持快速发展的局面,复现(Reproducing)已有的研究并准确评估新方法所带来的进步是很重要的。可惜,顶尖的深度强化学习方法很少能被简单的复现。尤其是,标准基准环境中的不确定性和不同方法之间的内在差异导致研究中的结果难以理解。如果实验过程缺乏显著性的度量和严格的标准化,则我们很难确定先前顶尖技术取得的进展是否有意义。在这篇论文中,我们研究了复现实验所面临的挑战、合适的实验技巧和报告流程。通过与常见基准进行对比,我们阐释了报告中度量方法和结果的可变性,同时提出了使深度强化学习未来的研究成果更易复现的指南。我们希望减小研究人员在不可复现和易误解的结果上花费精力,并引起大家对如何使该领域持续发展进行讨论。


图 1:已发布的强化学习论文增长趋势图,展示了每年(x 轴)强化学习相关论文(y 轴)的数量。


图 2:策略网络结构(Policy Network Structure)和激活函数 PPO(左)和 DDPG(右)的作用。


图 3:DDPG 在 HalfCheetah-v1 上的奖励尺度,左图有层范数(layer norm),右图无层范数。


表 1:我们的策略架构在不同的实现和算法中的排列结果。图中为 5 个返回试验结果的最终平均值 ± 标准误差。在 ACKTR 中,我们使用 elu 激活函数代替 leaky relu。


表 2:我们的价值函数(Q 或 V)架构在不同的实现和算法中的排列结果。图中为 5 个返回试验结果的最终平均值 ± 标准误差。在 ACKTR 中,我们使用 elu 激活函数代替 leaky relu。


图 4:多个策略梯度算法在基准 MuJoCo 环境组中的表现。


表 3:bootstrap 平均值和环境实验子集的 95% 置信界限。使用了 10k bootstrap 迭代和枢轴法(pivotal method)。


图 5:在 HalfCheetah-v1 运行的两个不同 TRPO 实验,两个实验具备同样的超参数,并在 5 个随机种子的两次中取平均值。


图 6:使用默认的超参数集对比 TRPO 代码库。


结语


通过对连续控制的 PG 方法进行实验和研究,我们探讨了 RL 中的复现性(reproducibility)问题。我们发现非确定性的内在源(如随机种子和环境属性等)和外在源(如超参数和代码库等)都可能导致复现基线算法出现困难。此外,我们发现由于内在源(intrinsic source)而产生的高度多样性结果加大了使用适当显著性分析的需要。我们提出了多种方法,并在实验子集上展示了它们的值。


我们能从这项实验中得到什么建议?


基于实验结果和调研,我们可以提出一些通用建议。不同的超参数在相同的算法和环境中可以产生截然不同的影响,因此通过标准优化和超参数搜索找出与原报告中基线算法性能匹配的工作集非常重要。同理,新的基线代码库(baseline codebase)需要匹配原代码库的结果。总体而言,由于强化学习算法的试验与随机种子有很大的差异性,在比较性能时,许多试验必须使用不同的随机种子运行。通过不同随机种子平均多次运行可以深入了解环境中算法性能的总体分布(population distribution),除非随机种子的选择是算法的明确部分。


由于这些影响,进行适当的显著性检验(significance testing)是非常重要的,因为它可以确定更高的平均奖励是否能够代表实际上更优的性能。我们强调了几种显著性检验的形式,发现在考虑到置信区间时,它们能给出普遍预期的结果。此外,我们展示了 bootstrapping 和 power analysis 作为了解试验运行次数的可行方法,以对算法性能增益的显著性做出明智的决定。然而一般来说,复现性最重要的步骤是报告所有基线对比方法和前沿工作的超参数、实现细节、实验设置和评估方法等。如果没有发布与实现相关的具体细节,那么在复现顶尖研究工作上浪费精力会给研究社区带来困扰,并减缓研究进度。


未来的调研线路是什么?


由于超参数对性能的极大影响力(特别是奖励尺度/reward scaling),未来比较重要的调研路线就是构建超参数不可知(agnostic)的算法。这种方法可以确保在比较奖励尺度、批量大小或网络结构等算法未知的参数时,从外部源不会引入不公平性。此外,虽然我们调研了一系列显著性度量(significance metrics),但它们可能并不是比较 RL 算法的最佳方法。


我们如何确保深度强化学习的重要性?


我们讨论了影响强化学习算法复现性的多种不同因素。然而,RL 算法是以优化预先指定的奖励函数为中心的。这些奖励函数类似于机器学习中的成本函数,而 RL 算法就是一种优化方法。由于某些算法特别容易受到奖励尺度和环境动力学(environment dynamics)的影响,也许我们更需要强调 RL 算法在现实任务中的适应性,就像成本优化(cost-optimization)方法那样。


也许新方法应该回答这样的问题:哪些设定使该研究有用?在研究社区中,我们必须使用公平的对比确保结果是可控的和可复现的,但是我们同样还需要用什么方法能够确保强化学习保持其重要性。 



本文为机器之心编译,转载请联系本公众号获得授权

✄------------------------------------------------

加入机器之心(全职记者/实习生):hr@jiqizhixin.com

投稿或寻求报道:content@jiqizhixin.com

广告&商务合作:bd@jiqizhixin.com

登录查看更多
0

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
最新《智能交通系统的深度强化学习》综述论文,22页pdf
基于深度学习的多标签生成研究进展
专知会员服务
141+阅读 · 2020年4月25日
《强化学习》简介小册,24页pdf
专知会员服务
272+阅读 · 2020年4月19日
卷积神经网络的概述论文:分析、应用和展望,21页pdf
专知会员服务
90+阅读 · 2020年4月7日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
172+阅读 · 2020年2月8日
2019必读的十大深度强化学习论文
专知会员服务
57+阅读 · 2020年1月16日
【强化学习】深度强化学习初学者指南
专知会员服务
179+阅读 · 2019年12月14日
OpenAI官方发布:强化学习中的关键论文
专知
14+阅读 · 2018年12月12日
强化学习十大原则
专知
12+阅读 · 2018年9月17日
想轻松复现深度强化学习论文?看这篇经验之谈
机器之心
4+阅读 · 2018年4月10日
深度强化学习的弱点和局限
论智
6+阅读 · 2018年2月27日
深度强化学习的弱点和局限(上)
论智
8+阅读 · 2018年2月26日
论文结果难复现?本文教你完美实现深度强化学习算法DQN
中国人工智能学会
5+阅读 · 2017年11月24日
Parsimonious Bayesian deep networks
Arxiv
5+阅读 · 2018年10月17日
Two Stream 3D Semantic Scene Completion
Arxiv
4+阅读 · 2018年7月16日
Arxiv
6+阅读 · 2018年2月24日
Arxiv
8+阅读 · 2018年1月25日
VIP会员
相关VIP内容
最新《智能交通系统的深度强化学习》综述论文,22页pdf
基于深度学习的多标签生成研究进展
专知会员服务
141+阅读 · 2020年4月25日
《强化学习》简介小册,24页pdf
专知会员服务
272+阅读 · 2020年4月19日
卷积神经网络的概述论文:分析、应用和展望,21页pdf
专知会员服务
90+阅读 · 2020年4月7日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
172+阅读 · 2020年2月8日
2019必读的十大深度强化学习论文
专知会员服务
57+阅读 · 2020年1月16日
【强化学习】深度强化学习初学者指南
专知会员服务
179+阅读 · 2019年12月14日
相关资讯
OpenAI官方发布:强化学习中的关键论文
专知
14+阅读 · 2018年12月12日
强化学习十大原则
专知
12+阅读 · 2018年9月17日
想轻松复现深度强化学习论文?看这篇经验之谈
机器之心
4+阅读 · 2018年4月10日
深度强化学习的弱点和局限
论智
6+阅读 · 2018年2月27日
深度强化学习的弱点和局限(上)
论智
8+阅读 · 2018年2月26日
论文结果难复现?本文教你完美实现深度强化学习算法DQN
中国人工智能学会
5+阅读 · 2017年11月24日
相关论文
Top
微信扫码咨询专知VIP会员