华为诺亚方舟伦敦实验室推出鲁棒强化学习新算法

2019 年 10 月 9 日 AI科技评论


论文地址:https://arxiv.org/abs/1907.13196

作者 | 汪军团队
编辑 | 唐里

这是汪军教授带领的华为诺亚方舟实验室伦敦团队在安全可信AI方向上的新成果,可以广泛应用到实际场景,例如自动驾驶,企业运筹,物流等等决策领域上。据悉,UCL汪军教授已学术休假,担任华为诺亚方舟实验室决策推理首席科学家。

背景

近年来,强化学习在多项任务(如围棋,电脑游戏)中有着令人惊艳的表现。强化学习算法依赖大量采样的特性决定了其需要首先在仿真环境中进行训练再迁移到现实系统中。然而,由一般强化学习算法训练产生的策略往往容易过拟合在虚拟的仿真环境上,一旦仿真环境和现实系统无法完全匹配,策略的迁移过程将会困难重重。几个常见的例子如机器人控制问题中关节的阻尼无法被准确测量,或是自动驾驶问题中汽车和地面间的摩擦力会根据轮胎和路况而改变。希望依靠仿真环境去完全还原现实系统并针对不同的仿真环境参数去训练不同的策略显然是不现实的。这一问题严重影响了强化学习算法的实用性。


优化问题的定义

本文我们提出一种新的鲁棒强化学习算法。我们将强化学习的鲁棒性问题抽象成了一个策略和仿真模型之间的有约束的极大-极小化问题。将策略和仿真环境分别用θ和φ参数化,无约束形式的极大-极小化问题可以表达为

其中轨迹τ的分布由策略θ和环境φ共同决定。通过求解这个优化问题,我们希望能够搜索到策略使其在最差的仿真环境中能够有最优的表现。然而这个无约束形式是不适定的,它允许对仿真环境进行随意改变。我们必须引入约束去限制φ的搜索范围并保证算法的收敛性。假设初始的仿真环境而现实系统这个初始环境的一个领域内,所引入的约束必须保证φ的搜索范围覆盖这个领域。我们采用转移概率分布之间Wasserstein距离的期望去定义这个的搜索领域

其中状态s和动作a的联合分布P(s,a)由一个均匀分布策略中采样产生。Wasserstein距离的期望可以用蒙特卡洛采样去进行估计。


优化问题的求解

在优化问题的求解方面,我们可以选用任意的策略搜索算法去求解外层关于策略参数θ的极大化问题。我们把目标函数在当前处进行一阶泰勒展开并把约束在处进行二阶泰勒展开,将内层关于φ的有约束极小化问题简化为如下的QCLP问题:

相应的φ的更新规则可通过求该QCLP问题的解析解得到

其中为目标函数在处的梯度,为约束在处的Hessian矩阵。


零阶优化

之前所述的优化问题的求解过程中,环境参数φ的更新建立在我们能够获得目标函数的梯度以及约束的Hessian矩阵的基础上。但在大多数应用中,该条件是难以得到满足的。例如,无模型的强化学习普遍依赖从以微分方程求解器为基础的仿真环境中获取采样,这直接导致目标函数和约束对于环境参数φ不可微。考虑到基于模型的强化学习在高维复杂的任务中表现平平,学习一个对于参数可微的环境模型去替代仿真环境并不是一个可行选择。该条件难以满足的另一个原因在于,约束中的Wasserstein距离仅在转移概率分布被假设为某些特殊分布(如高斯分布)时才有关于分布参数闭式且可导的表达式。在只能经验估计Wasserstein距离的情况下,我们无法获得约束对于φ的导数信息。

为了扩展算法的应用范围,我们提出了针对该优化问题的零阶解法,仅通过目标函数和约束的函数值来估计优化所需的梯度和Hessian矩阵。我们采用evolution strategy去估计目标函数对于φ的梯度:

并将该方法扩展至二阶去估计约束在处的Hessian矩阵:


实验

我们在Cartpole,Hopper,Walker2D和Halfcheetah四个MuJoCo机器人控制环境中测试了WR2L,并和若干基线进行了比较。作为基线的算法包含TRPO和PPO两个通用的策略搜索算法以及RARL鲁棒策略搜索算法。每个环境模型被参数化为若干物理量组成的向量,如机器人躯干密度,地面摩擦力等。通过WR2L训练的策略在所有测试任务中都显示出了很强的鲁棒性,和基线相比性能有明显的提升。

一维环境实验结果

Invpendulum, reference

   

Hopper, reference


Halfcheetah, reference


Halfcheetah, reference


二维环境实验结果


高维环境实验结果


评论

汪军教授对该工作的评论:决策系统的安全鲁棒抗干扰能力一直是阻碍强化学习算法落地应用的一个大障碍。这是在安全可信AI方向上的新成果,可以广泛应用到实际场景,例如自动驾驶,企业运筹,物流等等决策领域上。

Haitham Ammar教授对该工作的评论:考虑到仿真环境和现实系统之间的不匹配,智能体测率对于环境动力学的鲁棒性是强化学习能否实用的关键因素。本文我们提出了鲁棒强化学习的新算法,并在若干个标准测试任务中取得了SOTA的表现。我们相信该算法将会推动华为在自动决策领域的进一步发展。


致谢

感谢华为伦敦研究所汪军教授, Haitham Ammar教授和杨耀东在本文写作过程中给予的支持和意见。










   数学与 AI「融通」 ,徐宗本院士进行超强“迁移学习”

   张钹院士:人工智能的魅力就是它永远在路上 | CCAI 2019

   Facebook 自然语言处理新突破:新模型能力赶超人类 & 超难 NLP 新基准

   巴赫涂鸦创作者 Anna Huang 现身上海,倾情讲解「音乐生成」两大算法


点击“阅读原文”加入强化学习论文讨论小组

登录查看更多
2

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【IJCAI2020-华为诺亚】面向深度强化学习的策略迁移框架
专知会员服务
27+阅读 · 2020年5月25日
最新《智能交通系统的深度强化学习》综述论文,22页pdf
《强化学习》简介小册,24页pdf
专知会员服务
272+阅读 · 2020年4月19日
【强化学习】深度强化学习初学者指南
专知会员服务
179+阅读 · 2019年12月14日
近期强化学习领域论文导读(附源码)
人工智能前沿讲习班
7+阅读 · 2019年6月15日
基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】
人工智能前沿讲习班
26+阅读 · 2018年12月13日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
【学界】伯克利吴翼&FAIR田渊栋等人提出强化学习环境Hourse3D
GAN生成式对抗网络
5+阅读 · 2018年1月13日
【强化学习】强化学习+深度学习=人工智能
产业智能官
53+阅读 · 2017年8月11日
Arxiv
136+阅读 · 2018年10月8日
Arxiv
11+阅读 · 2018年4月25日
Arxiv
5+阅读 · 2018年4月22日
VIP会员
相关VIP内容
【IJCAI2020-华为诺亚】面向深度强化学习的策略迁移框架
专知会员服务
27+阅读 · 2020年5月25日
最新《智能交通系统的深度强化学习》综述论文,22页pdf
《强化学习》简介小册,24页pdf
专知会员服务
272+阅读 · 2020年4月19日
【强化学习】深度强化学习初学者指南
专知会员服务
179+阅读 · 2019年12月14日
相关资讯
近期强化学习领域论文导读(附源码)
人工智能前沿讲习班
7+阅读 · 2019年6月15日
基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】
人工智能前沿讲习班
26+阅读 · 2018年12月13日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
【学界】伯克利吴翼&FAIR田渊栋等人提出强化学习环境Hourse3D
GAN生成式对抗网络
5+阅读 · 2018年1月13日
【强化学习】强化学习+深度学习=人工智能
产业智能官
53+阅读 · 2017年8月11日
相关论文
Top
微信扫码咨询专知VIP会员