While deep reinforcement learning (RL) agents have demonstrated incredible potential in attaining dexterous behaviours for robotics, they tend to make errors when deployed in the real world due to mismatches between the training and execution environments. In contrast, the classical robotics community have developed a range of controllers that can safely operate across most states in the real world given their explicit derivation. These controllers however lack the dexterity required for complex tasks given limitations in analytical modelling and approximations. In this paper, we propose Bayesian Controller Fusion (BCF), a novel uncertainty-aware deployment strategy that combines the strengths of deep RL policies and traditional handcrafted controllers. In this framework, we can perform zero-shot sim-to-real transfer, where our uncertainty based formulation allows the robot to reliably act within out-of-distribution states by leveraging the handcrafted controller while gaining the dexterity of the learned system otherwise. We show promising results on two real-world continuous control tasks, where BCF outperforms both the standalone policy and controller, surpassing what either can achieve independently. A supplementary video demonstrating our system is provided at https://bit.ly/bcf_deploy.


翻译:虽然深度强化学习(RL)代理机构在机器人实现超模行为方面表现出了令人难以置信的潜力,但由于培训和执行环境的不匹配,它们在实际部署时往往会出错;相反,古典机器人社区开发了能够安全地在现实世界大多数州运作的一系列控制器,由于它们有明确的衍生作用,这些控制器开发了在现实世界大多数州能够安全运作的控制器;然而,这些控制器缺乏复杂任务所需的灵活性,因为分析建模和近似方面的限制。在本文中,我们提议巴伊西亚主计长Fusion(BCF)(BCF)(BCF)(BCF)(BCF)(BCF)(BCF)(BCF)超越独立政策和控制器(BCF)(BCF)(BCF)(BCFC)(BCF)(BCF)(BCFC)(BCF)(BCFC)(BCFEF)(BC) (BC) (BC) (BCF) (BC) (BCFOS-perperfround) (一种新的不确定的部署战略,它将深海政策和传统手制成型控制器) (LUD) (LUD) (LUD) (LE) (LE) (H) (M) (LO) (H) (LE) (LE) (M) (M) (M) (M) (L) (L) (M) (M) (M) (M) (M) (M) (T) (M) (LEVEVD) (M) (M) (M) (M) (M) (M) (R) (T) (T) (M) (M) (M) (M) (M) (M) (M) (M) (M) (M) (M) (L) (M) (M) (T) (M) ) (M) (M) (M) (L) (M) (M) (M) (T) (T) (M) (M) (M) (M) (M) (M) (M) (M) (M) (R) (M) (M) (M) (M

0
下载
关闭预览

相关内容

专知会员服务
90+阅读 · 2021年6月29日
专知会员服务
30+阅读 · 2021年5月20日
元强化学习综述及前沿进展
专知会员服务
62+阅读 · 2021年1月31日
专知会员服务
48+阅读 · 2020年10月20日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
79+阅读 · 2020年7月26日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
DAI2020 SMARTS 自动驾驶挑战赛(深度强化学习)
深度强化学习实验室
15+阅读 · 2020年8月15日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
IEEE2018|An Accurate and Real-time 3D Tracking System for Robots
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
0+阅读 · 2022年2月10日
Imitation by Predicting Observations
Arxiv
4+阅读 · 2021年7月8日
Arxiv
6+阅读 · 2018年3月28日
VIP会员
相关VIP内容
专知会员服务
90+阅读 · 2021年6月29日
专知会员服务
30+阅读 · 2021年5月20日
元强化学习综述及前沿进展
专知会员服务
62+阅读 · 2021年1月31日
专知会员服务
48+阅读 · 2020年10月20日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
79+阅读 · 2020年7月26日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
Top
微信扫码咨询专知VIP会员