【泡泡一分钟】基于状态抽象的正则化强化学习

2018 年 12 月 16 日 泡泡机器人SLAM

每天一分钟,带你读遍机器人顶级会议文章

标题:Regularizing Reinforcement Learning with State Abstraction

作者:Riad Akrour, Filipe Veiga, Jan Peters, Gerhard Neumann

来源:IROS 2018

编译:侯力玮

审核:颜青松  陈世浪

欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权


摘要

       离散化强化学习中的状态抽象可以将有类似最优动作的状态聚集起来,从而产生更容易求解的决策过程。本文将状态抽象的概念推广到连续动作强化学习中,将抽象状态定义为一个存在简单形状近似最优策略的状态簇。文中提出了一种分层强化学习算法,该算法可以同时发现每个聚类中的状态空间簇与最优子策略。该框架的主要优点是提供了一种可以控制学得策略的行为复杂性的方法来正则化强化学习。将算法应用在多个基准任务上,同时在机器人触觉操作任务上进行实验,结果表明,通过结合少量线性策略,能达到目前深度强化学习的最优效果。

图1 上图是本文在V-REP中模拟的Allegro机械手,任务是尽可能使圆柱逆时针旋转。

Abstract 

       State abstraction in a discrete reinforcement learning setting clusters states sharing a similar optimal action to yield an easier to solve decision process. In this paper,we generalize the concept of state abstraction to continuous action reinforcement learning by defining an abstract state as a state cluster over which a near-optimal policy of simple shape exists. We propose a hierarchical reinforcement learning algorithm that is able to simultaneously find the state space clustering and the optimal sub-policies in each cluster. The main advantage of the proposed framework is to provide a straightforward way of regularizing reinforcement learning by controlling the behavioral complexity of the learned policy. We apply our algorithm on several benchmark tasks and a robot tactile manipulation task and show that we can match state-ofthe-art deep reinforcement learning performance by combining a small number of linear policies. 


如果你对本文感兴趣,想要下载完整文章进行阅读,可以关注【泡泡机器人SLAM】公众号(paopaorobot_slam)

欢迎来到泡泡论坛,这里有大牛为你解答关于SLAM的任何疑惑。

有想问的问题,或者想刷帖回答问题,泡泡论坛欢迎你!

泡泡网站:www.paopaorobot.org

泡泡论坛:http://paopaorobot.org/forums/


泡泡机器人SLAM的原创内容均由泡泡机器人的成员花费大量心血制作而成,希望大家珍惜我们的劳动成果,转载请务必注明出自【泡泡机器人SLAM】微信公众号,否则侵权必究!同时,我们也欢迎各位转载到自己的朋友圈,让更多的人能进入到SLAM这个领域中,让我们共同为推进中国的SLAM事业而努力!

商业合作及转载请联系liufuqiang_robot@hotmail.com

登录查看更多
0

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【ICML2020】用于强化学习的对比无监督表示嵌入
专知会员服务
27+阅读 · 2020年7月6日
【IJCAI2020-华为诺亚】面向深度强化学习的策略迁移框架
专知会员服务
27+阅读 · 2020年5月25日
【圣经书】《强化学习导论(2nd)》电子书与代码,548页pdf
专知会员服务
202+阅读 · 2020年5月22日
强化学习和最优控制的《十个关键点》81页PPT汇总
专知会员服务
103+阅读 · 2020年3月2日
深度强化学习策略梯度教程,53页ppt
专知会员服务
179+阅读 · 2020年2月1日
强化学习最新教程,17页pdf
专知会员服务
176+阅读 · 2019年10月11日
【泡泡一分钟】用于平面环境的线性RGBD-SLAM
泡泡机器人SLAM
6+阅读 · 2018年12月18日
【泡泡一分钟】多尺度优化的CNN目标检测算法(ICCV2017-55)
泡泡机器人SLAM
8+阅读 · 2018年7月20日
【泡泡一分钟】端到端的弱监督语义对齐
泡泡机器人SLAM
53+阅读 · 2018年4月5日
【泡泡一分钟】动态环境下稳健的单目SLAM
泡泡机器人SLAM
13+阅读 · 2018年3月22日
Arxiv
6+阅读 · 2019年7月29日
Arxiv
9+阅读 · 2019年4月19日
Arxiv
7+阅读 · 2018年12月26日
Arxiv
3+阅读 · 2018年10月5日
A Multi-Objective Deep Reinforcement Learning Framework
Arxiv
5+阅读 · 2018年6月12日
Arxiv
11+阅读 · 2018年4月25日
Arxiv
5+阅读 · 2018年4月22日
VIP会员
相关论文
Arxiv
6+阅读 · 2019年7月29日
Arxiv
9+阅读 · 2019年4月19日
Arxiv
7+阅读 · 2018年12月26日
Arxiv
3+阅读 · 2018年10月5日
A Multi-Objective Deep Reinforcement Learning Framework
Arxiv
5+阅读 · 2018年6月12日
Arxiv
11+阅读 · 2018年4月25日
Arxiv
5+阅读 · 2018年4月22日
Top
微信扫码咨询专知VIP会员