NeurIPS 2020 | 一种基于动作采样的简单高效的正则化强化学习方法

2020 年 12 月 15 日 PaperWeekly

编者按:现有的强化学习方法通常通过熵正则化的方式控制最优策略的随机性,以保证训练过程中的良好探索以及目标策略的鲁棒性。然而,熵正则化的强化学习方法通常会面临表达能力有限的策略结构和复杂低效的训练过程之间的两难选择。为了解决上述问题,MIRA Lab 提出了一类基于动作采样的正则化强化学习方法。该类方法能够广泛兼容各种复杂的策略结构,同时具有计算简单高效的特点。实验结果表明,除了兼容性和计算效率,我们提出的方法在多个连续控制任务中也取得了超越现有方法的样本效率。原论文标题为《Promoting Stochasticity for Expressive Policies via a Simple and Efficient Regularization Method》,由王杰教授指导 MIRA Lab 的周祺、匡宇飞等人发表于 NeurIPS 2020。
   


论文标题:

Promoting Stochasticity for Expressive Policies via a Simple and Efficient Regularization Method


论文链接:

https://proceedings.neurips.cc//paper/2020/file/9cafd121ba982e6de30ffdf5ada9ce2e-Paper.pdf


代码链接:

https://github.com/MIRALab-USTC/RL-ACED


引言

近年来,强化学习算法在游戏智能、机器人控制等领域取得了令人瞩目的成果。一般而言,强化学习算法分为 model-based 类方法和 model-free 类方法。model-based 类方法通常具有更高的样本效率,但相对而言实现较为复杂,也常常会引入额外的预测误差。我们 MIRA Lab 的周祺等同学在 AAAI 2020 的工作 [1] 中通过引入 函数的不确定度来度量该误差并缓解其对策略优化带来的影响,取得了良好的实验效果(相关代码实现参见 github 链接 )。
https://github.com/MIRALab-USTC/RL-POMBU

相较于 model-based 类方法,model-free 类方法的实现和分析往往都相对简单。在 model-free 强化学习方法中,我们需要最大化累积回报的期望,因此最后习得的策略往往接近于一个确定性策略。然而,相比于确定性策略,随机策略更有利于探索未知环境,且在环境参数发生变化时具有更好的鲁棒性 [2,3],因此我们更希望训练得到的策略是随机策略。

为了促进策略的随机性,过往工作使用了熵正则化方法。该类方法在最大化累积奖励的同时,最大化动作分布的熵。如,soft Q-learning [4] 和 SAC [3,5] 使用 Shannon 熵作为正则项;sparse PCL [6] 和 TAC [7] 使用 Tsallis 熵作为正则项。

然而,在考虑连续的工作空间时,熵正则化的强化学习方法会陷入表达能力有限的简单策略」复杂低效的训练过程」之间的两难选择。例如,SAC 往往使用简单的高斯分布表示策略,而 soft Q-learning 需要复杂低效的采样和推理过程来优化策略。

为解决以上问题,我们提出了一类新的正则化方式。进而,1) 在使用复杂策略时也能高效地估计该正则项的值;2) 该正则项能够广泛兼容一般的策略结构。


背景介绍

我们考虑动作空间连续的马尔可夫决策过程,该过程可用五元组 表示,其中 为相应的状态空间和动作空间, 为状态转移函数, 为奖励函数, 为折扣因子。此外,我们用 表示策略在状态 下对应的动作分布。
在正则化强化学习框架中,需要在标准的强化学习目标函数的基础上增加一项关于策略的正则项 [8] 。此时,其目标函数变为:

这里 为正则项所占权重的超参。相应地,该目标函数下的 值函数和 值函数定义为:

在基于熵的正则化强化学习方法里, 通常为策略在该状态下的动作分布的 Shannon 熵或者 Tsallis 熵。


熵正则方法的局限性

在考虑连续的工作空间时,熵正则化的强化学习方法会陷入表达能力有限的简单策略」「复杂低效的训练过程」之间的两难选择。具体地,熵正则项往往具有以下形式:

其中 表示动作  在给定状态 时的概率密度。该形式的正则项会导致
  • 熵正则的估计需要计算所选动作的概率密度(probability density),而使用复杂策略时其计算往往低效繁琐。 例如,使用标准化流(normalizing flow)表征策略时 [9] ,需要额外的串行过程计算概率密度;通过集成多个概率分布来表示策略时,需要计算每个分布的概率密度再进行平均。
  • 熵正则的定义往往需要动作分布具有连续的累积分布函数,而使用复杂策略时该函数可能并不连续。 例如,使用基于狄拉克混合分布(Dirac mixture)表征策略 [10] 时,其动作的累积分布函数是阶梯状的不连续函数;使用噪声网络(noisy network)表征策略时,由于 Relu 激活函数的影响,动作分布的累积分布函数也可能出现不连续的情况。


基于样本的正则化方法
为了解决熵正则项的一系列不足,我们提出了基于样本的正则化方法(Sample Based Regularization:SBR)。本章节中,我们将描述其定义,给出具体的实例,并简单讨论该正则项的性质。
4.1 正则项的表达式
基于样本的正则项具有如下形式:

我们之所以将其称为基于样本的正则项,是因为我们可以仅使用动作的采样估计该正则项的取值,而不要求概率密度函数存在或可计算。具体地,我们使用如下的无偏估计:

这里 为从分布 中采样的动作个数,是人为设定的超参。基于样本的正则项中, 用于度量动作之间的相互影响。为了促进策略的随机性,我们通过其鼓励动作之间相互远离;而上式中的 用于引导动作朝某种先验分布聚集。同时该项可以避免在前一项的作用下所有动作都分布于动作空间的边界。

4.2 基于广义能量距离的实例

4.2.1 广义能量距离

上节中我们给出了基于样本的正则项的表达式,在本节中,我们将基于广义能量距离给出上述正则项的一系列具体实例。

我们首先介绍广义能量距离。广义能量距离(generalized energy distance, GED)在统计推断中常被用来度量两个概率分布之间的一致性 [11] 。假设 为两个概率分布,广义能量距离 定义为:
这里 为满足一定条件的非负函数,其部分实例可参考下表1:

▲ 表1:函数 的部分实例
进一步地,我们可以定义:

这里 为分布 在其取值空间中第 维的边缘分布。同样地,在对动作分布进行一定限制的情况下, 是一个描述概率分布之间距离的度量。

4.2.2 两个实例

我们注意到,分布 的 Shannon 熵满足:

其中, 为 KL 散度,u 是一个均匀分布,C 是常数项。也就是说,添加熵正则项实际是鼓励缩小动作分布与均匀分布之间的差异。因此,我们定义正则项:
其中距离 可以取 。此时,正则项具有 SBR 的形式。具体对应关系如表2:

▲ 表2:基于广义能量距离导出的 SBR 实例

上表中的两类正则项实例的详细理论分析,以及其在单状态摇臂机问题中的可视化展现,请参考本论文原文 3.2~3.5 节。


基于能量距离的 actor-critic 算法

基于上文中的正则项实例,我们提出了基于广义能量距离的强化学习算法:Actor Critic with generalized Energy Distance (ACED)。该方法使用 作为正则项,其算法流程与 SAC 基本一致。
但不同于 SAC 算法,ACED 算法具有如下特点:1) 对动作分布的类型几乎没有任何限制,能够广泛地兼容各种不同的策略结构;2) 正则项值的估计基于动作的采样,不需要概率密度值的显式计算,因此能够显著提升复杂策略下正则项值的计算效率。


实验结果

(注:本节仅选取部分实验结果,更详细的结果请参考本论文原文第 5 节。)
6.1 算法性能比较
我们在 6 个不同的 MuJoCo 仿真控制任务下比较了 ACED 算法与 SAC [5] 、TD3 [12] 、DDPG [13] 等算法的性能差异,实验结果如下图。绝大多数任务中,ACED 算法取得了优于基准算法的性能。
   

▲ 图1:6个不同任务下ACED算法与SAC、TD3、DDPG等算法的性能比较


6.2 算法效率比较
我们同样比较了 ACED 算法(使用基于广义能量距离的正则项)和 SAC 算法(使用基于 Shannon 熵的正则项)在不同策略结构下的计算效率,实验结果如下表3。可以看出,ACED 算法在计算正则项时增加动作采样数不会明显增加计算开销;且在使用更为复杂的策略结构时,ACED 算法相比 SAC 算法在计算效率上具有明显优势。
▲ 表3:不同策略结构、不同动作采样数下 ACED 算法与 SAC 算法的性能比较。表中所列时间为 步训练用时,SG 为基于高斯分布的策略,NF 为基于标准化流网络的策略

6.3 对比和消融实验

最后,我们对 ACED 算法进行了详细的对比和消融实验。我们首先考虑不同的超参数 ,即使用不同数量的动作采样估计正则项(如图2.a),我们发现 ACED 算法对动作采样数不敏感,即使在 的情况下算法的表现仍然很好;接着我们对比了使用/不使用正则项时的性能(如图2.b),实验证明基于样本的正则项在不同策略结构下都有助于提升学习效率;最后我们对比了在正则项中使用不同的函数 对性能的影响差异(如图2.c),结果显示选择合适的函数 对 ACED 算法的性能较为重要。

▲ 图2:ACED算法的各项参数的详细的对比和消融实验,所有实验结果均基于 HalfCheetah-v2 任务。图中 SAC-MAX 为 SAC 算法在 步训练中的最佳性能;图 2.b 中 DM、NN、GM 分别对应狄拉克混合策略、基于噪声网络的策略、基于生成模型的策略;图 2.c 中,log、power-0.25、power-0.5、interal_energy 分别对应正则项使用 以及仅包含 的正则项


总结

在本文中,我们提出了一种基于动作采样的正则项 SBR,并基于广义能量距离(GED)给出了该正则项的一系列实例。SBR 作为熵正则的一种替代方案,能够广泛兼容各种复杂的策略结构,并具备计算高效、样本效率高等诸多优势。然而,“是否还能找到其他更好的 SBR 实例?”,“广义能量距离能否应用于强化学习的其他任务?”,这些问题仍待进一步解决和完善,我们也欢迎大家进行相关研究和讨论。



关于作者


周祺,2019年毕业于中国科学技术大学计算机科学与技术学院,获得工学学士学位。现于中国科学技术大学电子工程与信息科学系的 MIRA Lab 实验室攻读研究生,师从王杰教授。研究兴趣包括强化学习与机器博弈。目前已发表论文包括:

1. Qi Zhou, Houqiang Li, and Jie Wang. Deep Model-Based Reinforcement Learning via Estimated Uncertainty and Conservative Policy Optimization. In AAAI, 2020.

2. Qi Zhou, Yufei Kuang, Zherui Qiu, Houqiang Li, and Jie Wang. Promoting Stochasticity for Expressive Policies via a Simple and Efficient Regularization Method. In NeurIPS, 2020.


参考文献

[1] Qi Zhou, Houqiang Li, and Jie Wang. Deep Model-Based Reinforcement Learning via Estimated Uncertainty and Conservative Policy Optimization. In AAAI, 2020.

[2] Wenhao Yang, Xiang Li, and Zhihua Zhang. A regularized approach to sparse optimal policy in reinforcement learning. In NeurIPS, 2019.

[3] Tuomas Haarnoja, Aurick Zhou, Pieter Abbeel, and Sergey Levine. Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor. In ICML, 2018.

[4] Tuomas Haarnoja, Haoran Tang, Pieter Abbeel, and Sergey Levine. Reinforcement learning with deep energy-based policies. In ICML, 2017.

[5] Tuomas Haarnoja, Aurick Zhou, Kristian Hartikainen, George Tucker, Sehoon Ha, Jie Tan, Vikash Kumar, Henry Zhu, Abhishek Gupta, Pieter Abbeel, et al. Soft actor-critic algorithms and applications. arXiv preprint, 2018.

[6] Yinlam Chow, Ofir Nachum, and Mohammad Ghavamzadeh. Path consistency learning in tsallis entropy regularized mdps. In ICML, 2018.

[7] Kyungjae Lee, Sungyub Kim, Sungbin Lim, Sungjoon Choi, and Songhwai Oh. Tsallis reinforcement learning: A unified framework for maximum entropy reinforcement learning. arXiv preprint, 2019.

[8] Geist, Matthieu, Bruno Scherrer, and Olivier Pietquin. A Theory of Regularized Markov Decision Processes. In ICML, 2018.

[9] Bogdan Mazoure, Thang Doan, Audrey Durand, R Devon Hjelm, and Joelle Pineau. Leveraging exploration in off-policy algorithms via normalizing flows. arXiv preprint, 2019.

[10] Yunhao Tang and Shipra Agrawal. Discretizing continuous action space for on-policy optimization. arXiv preprint, 2019.

[11] L Baringhaus and C Franz. Rigid motion invariant two-sample tests. Statistica Sinica, 2010.

[12] Scott Fujimoto, Herke Van Hoof, and David Meger. Addressing function approximation error in actor-critic methods. In ICML, 2018.

[13] Timothy P Lillicrap, Jonathan J Hunt, Alexander Pritzel, Nicolas Heess, Tom Erez, Yuval Tassa, David Silver, and Daan Wierstra. Continuous control with deep reinforcement learning. arXiv preprint, 2015.



更多阅读




#投 稿 通 道#

 让你的论文被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。


📝 来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向) 

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接 

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志


📬 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site 

• 所有文章配图,请单独在附件中发送 

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



关于PaperWeekly


PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。



登录查看更多
0

相关内容

在数学,统计学和计算机科学中,尤其是在机器学习和逆问题中,正则化是添加信息以解决不适定问题或防止过度拟合的过程。 正则化适用于不适定的优化问题中的目标函数。
专知会员服务
29+阅读 · 2020年12月14日
【ICML2020】强化学习中基于模型的方法,279页ppt
专知会员服务
44+阅读 · 2020年10月26日
【NeurIPS 2020】生成对抗性模仿学习的f-Divergence
专知会员服务
25+阅读 · 2020年10月9日
专知会员服务
19+阅读 · 2020年9月2日
【ICML2020】用于强化学习的对比无监督表示嵌入
专知会员服务
27+阅读 · 2020年7月6日
【CVPR2020】L2 ^GCN:图卷积网络的分层学习高效训练
专知会员服务
37+阅读 · 2020年3月31日
基于逆强化学习的示教学习方法综述
计算机研究与发展
14+阅读 · 2019年2月25日
一文学习基于蒙特卡罗的强化学习方法(送书)
人工智能头条
7+阅读 · 2018年3月13日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
3+阅读 · 2018年10月5日
VIP会员
相关VIP内容
专知会员服务
29+阅读 · 2020年12月14日
【ICML2020】强化学习中基于模型的方法,279页ppt
专知会员服务
44+阅读 · 2020年10月26日
【NeurIPS 2020】生成对抗性模仿学习的f-Divergence
专知会员服务
25+阅读 · 2020年10月9日
专知会员服务
19+阅读 · 2020年9月2日
【ICML2020】用于强化学习的对比无监督表示嵌入
专知会员服务
27+阅读 · 2020年7月6日
【CVPR2020】L2 ^GCN:图卷积网络的分层学习高效训练
专知会员服务
37+阅读 · 2020年3月31日
相关资讯
基于逆强化学习的示教学习方法综述
计算机研究与发展
14+阅读 · 2019年2月25日
一文学习基于蒙特卡罗的强化学习方法(送书)
人工智能头条
7+阅读 · 2018年3月13日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员