Generating human-like behavior on robots is a great challenge especially in dexterous manipulation tasks with robotic hands. Even in simulation with no sample constraints, scripting controllers is intractable due to high degrees of freedom, and manual reward engineering can also be hard and lead to non-realistic motions. Leveraging the recent progress on Reinforcement Learning from Human Feedback (RLHF), we propose a framework to learn a universal human prior using direct human preference feedback over videos, for efficiently tuning the RL policy on 20 dual-hand robot manipulation tasks in simulation, without a single human demonstration. One task-agnostic reward model is trained through iteratively generating diverse polices and collecting human preference over the trajectories; it is then applied for regularizing the behavior of polices in the fine-tuning stage. Our method empirically demonstrates more human-like behaviors on robot hands in diverse tasks including even unseen tasks, indicating its generalization capability.


翻译:在机器人置换操作任务中生成类似于人类的行为是巨大的挑战, 特别是涉及到机器人手的灵巧操作。即使在没有样本约束的模拟中, 由于自由度高, 编写控制器也是不可行的, 手动设计奖励也可能难以实现并导致非现实的动作。借助强化学习从人类反馈中的最近进展 (RLHF), 我们提出一个框架,使用直接的人类偏好反馈视频数据来学习通用的人类先验知识,为20个双手机器人置换操作任务在模拟中高效调整RL策略, 并且不需要进行单个人类演示。通过迭代生成不同的策略和收集人类对轨迹的偏好, 训练了一个任务不可知奖励模型, 然后将其应用于在精细调节阶段规范策略的行为。我们的方法在多种任务中, 包括未见过的任务中, 在机器人手上呈现了更类似于人类的行为, 表明它具有良好的泛化能力。

0
下载
关闭预览

相关内容

JCIM丨DRlinker:深度强化学习优化片段连接设计
专知会员服务
6+阅读 · 2022年12月9日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
使用强化学习训练机械臂完成人类任务
AI研习社
13+阅读 · 2019年3月23日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
16篇论文入门manipulation研究
机器人学家
15+阅读 · 2017年6月6日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
6+阅读 · 2013年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2023年5月26日
Arxiv
15+阅读 · 2018年4月3日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
6+阅读 · 2013年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员