会员服务 ·

0

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

2018 年 12 月 22 日 专知

【导读】作者Tuomas Haarnoja是伯克利人工智能研究实验室(BAIR)的博士生，由Pieter Abbeel和Sergey Levine指导，他研究兴趣是建立对深度强化学习算法更好的理解，并开发新的解决方案，以启发现实机器人应用，需要良好的样本复杂性和安全的探索。他最出名的工作是最大熵强化学习，它为学习样本高效可靠的随机策略提供了一个理论基础框架，并将其应用于机器人操纵和运动。

作者主页：

https://people.eecs.berkeley.edu/~haarnoja/

他的毕业博士论文使用最大熵强化学习使机器人具备多样技能《Acquiring Diverse Robot Skills via Maximum Entropy Deep Reinforcement Learning》，是最大熵强化学习在机器人应用方面的综述性文章，非常值得参阅。

Pieter Abbeel也做了重点推荐和祝贺！

博士论文下载：

请关注专知公众号（扫一扫最下面专知二维码，或者点击上方蓝色专知），

后台回复“MEDRL” 就可以获取笔记博士论文下载链接~

博士论文《Acquiring Diverse Robot Skills via Maximum Entropy Deep Reinforcement Learning》

论文题目：

Acquiring Diverse Robot Skills via Maximum Entropy Deep Reinforcement Learning

作者：

Tuomas Haarnoja

导师：Pieter Abbeel and Sergey Levine

网址：

https://www2.eecs.berkeley.edu/Pubs/TechRpts/2018/EECS-2018-176.html

论文摘要：

在本文中，我们研究了最大熵框架如何提供有效的深度强化学习(deep reinforcement learning, deep RL)算法，以连贯性地解决任务并有效地进行样本抽取。这个框架有几个有趣的特性。首先，最优策略是随机的，改进了搜索，防止了收敛到局部最优，特别是当目标是多模态的时候。其次，熵项提供了正则化，与确定性方法相比，具有更强的一致性和鲁棒性。第三，最大熵策略是可组合的，即可以组合两个或两个以上的策略，并且所得到的策略对于组成任务奖励的总和是近似最优的。第四，最大熵RL作为概率推理的观点为构建能够解决复杂和稀疏奖励任务的分层策略提供了基础。在第一部分中,我们将在此基础上设计新的算法框架,从soft Q学习的学习表现力好的能量策略、对于 sodt actor-critic提供简单和方便的方法,到温度自动调整策略, 几乎不需要hyperparameter调优,这是最重要的一个实际应用的调优hyperparameters可以非常昂贵。在第二部分中，我们将讨论由最大熵策略固有的随机特性所支持的扩展，包括组合性和层次学习。我们将演示所提出的算法在模拟和现实机器人操作和移动任务中的有效性。

论文结构：

模拟四足机器人在多种环境中行走：

机械臂拼乐高

层次最大熵强化学习模型

-END-

专 · 知

专知开课啦!《深度学习: 算法到实战》, 中科院博士为你讲授！

请加专知小助手微信（扫一扫如下二维码添加），加入专知主题群, 咨询《深度学习:算法到实战》等~

欢迎微信扫一扫加入专知人工智能知识星球群，获取专业知识教程视频资料和与专家交流咨询！

请PC登录www.zhuanzhi.ai或者点击阅读原文，注册登录专知，获取更多AI知识资料！

点击“阅读原文”，了解报名专知《深度学习:算法到实战》课程

登录查看更多

12

相关内容

强化学习

强化学习（RL）是机器学习的一个领域，与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外，强化学习是三种基本的机器学习范式之一。强化学习与监督学习的不同之处在于，不需要呈现带标签的输入/输出对，也不需要显式纠正次优动作。相反，重点是在探索（未知领域）和利用（当前知识）之间找到平衡。该环境通常以马尔可夫决策过程（MDP）的形式陈述，因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于，后者不假设MDP的确切数学模型，并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

专知会员服务

95+阅读 · 2020年6月19日

【圣经书】《强化学习导论(2nd)》电子书与代码，548页pdf

【圣经书】《强化学习导论(2nd)》电子书与代码，548页pdf

专知会员服务

208+阅读 · 2020年5月22日

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

专知会员服务

121+阅读 · 2020年5月18日

《强化学习》简介小册，24页pdf

《强化学习》简介小册，24页pdf

专知会员服务

277+阅读 · 2020年4月19日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能,195页PDF

斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能,195页PDF

专知会员服务

71+阅读 · 2019年10月27日

【伯克利博士论文】从自然语言中学习（附106页pdf全文下载）

【伯克利博士论文】从自然语言中学习（附106页pdf全文下载）

专知会员服务

52+阅读 · 2019年10月26日

无监督深度学习——这《元监督视觉学习》132页伯克利博士论文带你回顾无监督视觉应用最新发展脉络

无监督深度学习——这《元监督视觉学习》132页伯克利博士论文带你回顾无监督视觉应用最新发展脉络

专知会员服务

30+阅读 · 2019年10月26日

MIT新书《强化学习与最优控制》

MIT新书《强化学习与最优控制》

专知会员服务

280+阅读 · 2019年10月9日

【ICML2019 Tutorials】元学习：从小样本学习到快速强化学习(Meta-Learning: from Few-Shot Learning to Rapid Reinforcement Learning)，Google Brain的研究科学家| Chelsea Finn，加州大学伯克利分校| Sergey Levine

【ICML2019 Tutorials】元学习：从小样本学习到快速强化学习(Meta-Learning: from Few-Shot Learning to Rapid Reinforcement Learning)，Google Brain的研究科学家| Chelsea Finn，加州大学伯克利分校| Sergey Levine

专知会员服务

55+阅读 · 2019年6月10日

【微软Alekh等开放新书】强化学习理论与算法，83页pdf，了解最新进展

【微软Alekh等开放新书】强化学习理论与算法，83页pdf，了解最新进展

专知

25+阅读 · 2019年11月23日

【伯克利Pieter Abbeel教授报告@CMU】元学习与深度强化学习的机器人应用，84页ppt

【伯克利Pieter Abbeel教授报告@CMU】元学习与深度强化学习的机器人应用，84页ppt

专知

13+阅读 · 2019年10月12日

【强化学习干货】《深度学习与机器人学》大牛Pieter Abbeel 105页PPT下载

【强化学习干货】《深度学习与机器人学》大牛Pieter Abbeel 105页PPT下载

新智元

13+阅读 · 2019年1月2日

无监督深度学习——这《元监督视觉学习》132页伯克利博士论文带你回顾无监督视觉应用最新发展脉络

无监督深度学习——这《元监督视觉学习》132页伯克利博士论文带你回顾无监督视觉应用最新发展脉络

专知

26+阅读 · 2019年1月1日

元学习究竟是什么？这《基于梯度的元学习》199页伯克利博士论文带你回顾元学习最新发展脉络

元学习究竟是什么？这《基于梯度的元学习》199页伯克利博士论文带你回顾元学习最新发展脉络

专知

39+阅读 · 2018年12月27日

【伯克利博士论文】最优化无所不在-凸优化、组合优化与经济学（附256页全文下载）

【伯克利博士论文】最优化无所不在-凸优化、组合优化与经济学（附256页全文下载）

专知

15+阅读 · 2018年12月26日

斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能,195页PDF

斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能,195页PDF

专知

57+阅读 · 2018年12月16日

【强化学习】强化学习与控制理论的区别与联系；深度强化学习的课程笔记。

【强化学习】强化学习与控制理论的区别与联系；深度强化学习的课程笔记。

产业智能官

49+阅读 · 2018年7月4日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

已删除

将门创投

8+阅读 · 2017年7月21日

CURL: Contrastive Unsupervised Representations for Reinforcement Learning

Arxiv

17+阅读 · 2020年4月28日

A Survey on Trajectory Data Management, Analytics, and Learning

A Survey on Trajectory Data Management, Analytics, and Learning

Arxiv

16+阅读 · 2020年3月25日

Deep learning for cardiac image segmentation: A review

Deep learning for cardiac image segmentation: A review

Arxiv

21+阅读 · 2019年11月9日

Risk-Aware Active Inverse Reinforcement Learning

Risk-Aware Active Inverse Reinforcement Learning

Arxiv

8+阅读 · 2019年1月8日

HAQ: Hardware-Aware Automated Quantization

HAQ: Hardware-Aware Automated Quantization

Arxiv

6+阅读 · 2018年11月21日

Meta-Learning: A Survey

Arxiv

136+阅读 · 2018年10月8日

Reinforcement Learning with Perturbed Rewards

Arxiv

4+阅读 · 2018年10月5日

Physical Primitive Decomposition

Physical Primitive Decomposition

Arxiv

4+阅读 · 2018年9月13日

CIRL: Controllable Imitative Reinforcement Learning for Vision-based Self-driving

CIRL: Controllable Imitative Reinforcement Learning for Vision-based Self-driving

Arxiv

8+阅读 · 2018年7月10日

Learning to Adapt: Meta-Learning for Model-Based Control

Arxiv

9+阅读 · 2018年3月30日

VIP会员

相关主题

深度强化学习

机器人应用

相关VIP内容

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

专知会员服务

95+阅读 · 2020年6月19日

【圣经书】《强化学习导论(2nd)》电子书与代码，548页pdf

【圣经书】《强化学习导论(2nd)》电子书与代码，548页pdf

专知会员服务

208+阅读 · 2020年5月22日

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

专知会员服务

121+阅读 · 2020年5月18日

《强化学习》简介小册，24页pdf

《强化学习》简介小册，24页pdf

专知会员服务

277+阅读 · 2020年4月19日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能,195页PDF

斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能,195页PDF

专知会员服务

71+阅读 · 2019年10月27日

【伯克利博士论文】从自然语言中学习（附106页pdf全文下载）

【伯克利博士论文】从自然语言中学习（附106页pdf全文下载）

专知会员服务

52+阅读 · 2019年10月26日

无监督深度学习——这《元监督视觉学习》132页伯克利博士论文带你回顾无监督视觉应用最新发展脉络

无监督深度学习——这《元监督视觉学习》132页伯克利博士论文带你回顾无监督视觉应用最新发展脉络

专知会员服务

30+阅读 · 2019年10月26日

MIT新书《强化学习与最优控制》

MIT新书《强化学习与最优控制》

专知会员服务

280+阅读 · 2019年10月9日

【ICML2019 Tutorials】元学习：从小样本学习到快速强化学习(Meta-Learning: from Few-Shot Learning to Rapid Reinforcement Learning)，Google Brain的研究科学家| Chelsea Finn，加州大学伯克利分校| Sergey Levine

【ICML2019 Tutorials】元学习：从小样本学习到快速强化学习(Meta-Learning: from Few-Shot Learning to Rapid Reinforcement Learning)，Google Brain的研究科学家| Chelsea Finn，加州大学伯克利分校| Sergey Levine

专知会员服务

55+阅读 · 2019年6月10日

热门VIP内容

开通专知VIP会员享更多权益服务

《美陆军徒步机动作战条令手册》最新168页

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

军事后勤数字化未来展望

《美海军后勤体系整合与创新挑战》最新报告

相关资讯

【微软Alekh等开放新书】强化学习理论与算法，83页pdf，了解最新进展

【微软Alekh等开放新书】强化学习理论与算法，83页pdf，了解最新进展

专知

25+阅读 · 2019年11月23日

【伯克利Pieter Abbeel教授报告@CMU】元学习与深度强化学习的机器人应用，84页ppt

【伯克利Pieter Abbeel教授报告@CMU】元学习与深度强化学习的机器人应用，84页ppt

专知

13+阅读 · 2019年10月12日

【强化学习干货】《深度学习与机器人学》大牛Pieter Abbeel 105页PPT下载

【强化学习干货】《深度学习与机器人学》大牛Pieter Abbeel 105页PPT下载

新智元

13+阅读 · 2019年1月2日

无监督深度学习——这《元监督视觉学习》132页伯克利博士论文带你回顾无监督视觉应用最新发展脉络

无监督深度学习——这《元监督视觉学习》132页伯克利博士论文带你回顾无监督视觉应用最新发展脉络

专知

26+阅读 · 2019年1月1日

元学习究竟是什么？这《基于梯度的元学习》199页伯克利博士论文带你回顾元学习最新发展脉络

元学习究竟是什么？这《基于梯度的元学习》199页伯克利博士论文带你回顾元学习最新发展脉络

专知

39+阅读 · 2018年12月27日

【伯克利博士论文】最优化无所不在-凸优化、组合优化与经济学（附256页全文下载）

【伯克利博士论文】最优化无所不在-凸优化、组合优化与经济学（附256页全文下载）

专知

15+阅读 · 2018年12月26日

斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能,195页PDF

斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能,195页PDF

专知

57+阅读 · 2018年12月16日

【强化学习】强化学习与控制理论的区别与联系；深度强化学习的课程笔记。

【强化学习】强化学习与控制理论的区别与联系；深度强化学习的课程笔记。

产业智能官

49+阅读 · 2018年7月4日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

已删除

将门创投

8+阅读 · 2017年7月21日

相关论文

CURL: Contrastive Unsupervised Representations for Reinforcement Learning

Arxiv

17+阅读 · 2020年4月28日

A Survey on Trajectory Data Management, Analytics, and Learning

A Survey on Trajectory Data Management, Analytics, and Learning

Arxiv

16+阅读 · 2020年3月25日

Deep learning for cardiac image segmentation: A review

Deep learning for cardiac image segmentation: A review

Arxiv

21+阅读 · 2019年11月9日

Risk-Aware Active Inverse Reinforcement Learning

Risk-Aware Active Inverse Reinforcement Learning

Arxiv

8+阅读 · 2019年1月8日

HAQ: Hardware-Aware Automated Quantization

HAQ: Hardware-Aware Automated Quantization

Arxiv

6+阅读 · 2018年11月21日

Meta-Learning: A Survey

Arxiv

136+阅读 · 2018年10月8日

Reinforcement Learning with Perturbed Rewards

Arxiv

4+阅读 · 2018年10月5日

Physical Primitive Decomposition

Physical Primitive Decomposition

Arxiv

4+阅读 · 2018年9月13日

CIRL: Controllable Imitative Reinforcement Learning for Vision-based Self-driving

CIRL: Controllable Imitative Reinforcement Learning for Vision-based Self-driving

Arxiv

8+阅读 · 2018年7月10日

Learning to Adapt: Meta-Learning for Model-Based Control

Arxiv

9+阅读 · 2018年3月30日

大家都在搜

无人机集群

久别重逢话双塔

OpenKG开源系列 | 海洋鱼类百科知识图谱（浙江大学）

微信扫码咨询专知VIP会员