每天一分钟,带你读遍机器人顶级会议文章
标题:Robot Navigation from Human Demonstration: Learning Control Behaviors
作者:Maggie Wigness, John G. Rogers III, Luis E. Navarro-Serment
来源:2018 IEEE International Conference on Robotics and Automation (ICRA)
编译:孙钦
审核:颜青松,陈世浪
欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权
摘要
当在灾难恢复等动态环境中与人类合作者一起工作时,无人地面车辆(UGV)可能需要快速地适应现场以履行其职责或学习新任务。在灾难恢复情况下,人员和设备受到限制,因此必须在最少的人类监督下完成训练。在本文中,我们介绍了一个新的框架,该框架在最小的人类监督的例子中训练使用基于学习的视觉感知和逆最优控制(inverse optimal control,IOC)。
图1 系统的离线训练过程和在线路径规划预览,该系统学习如何在城市环境中为地形分配成本值。
本文的方法的核心组件包括两个部分:奖励函数的学习和占用栅格特征地图的创建。其中地图学习部分如下图所示。
图2 在线导航过程中,通过分层推理机(Hierarchical Inference Machine,HIM)得到的视觉分类输出结果。这些帧被投影到地面,以生成每种特征类型的二进制占用栅格。
图3 左图为障碍物地图示例,右图为对应的模糊特征地图
该方法用于学习模仿导航行为,并通过在现实环境中的广泛评估来证明。最后,我们在现场展示了其在最少的人类示范中学习额外行为的能力。
图4 Husky 机器人实验平台
图5 在实验评估期间机器人行驶轨迹的鸟瞰图
表1 比较基线和IOC规划器相对于收集的真实轨迹的修正豪斯多夫距离。(*代表一次试验;**代表两次试验)
表2 比较基线和IOC规划器相对于描绘隐蔽遍历行为的真实轨迹的修正豪斯多夫距离。
Abstract
When working alongside human collaborators in dynamic environments such as a disaster recovery, an unmanned ground vehicle (UGV) may require fast field adaptation to perform its duties or learn novel tasks. In disaster recovery situations, personnel and equipment are constrained, so training must be accomplished with minimal human supervision. In this paper, we introduce a novel framework which uses learned visual perception and inverse optimal control trained with minimal human supervisory examples. This approach is used to learn to mimic navigation behavior and is demonstrated through extensive evaluation in a real-world environment. Finally, we demonstrate the ability to learn an additional behavior with minimal human demonstration in the field.
如果你对本文感兴趣,请点击点击阅读原文下载完整文章,如想查看更多文章请关注【泡泡机器人SLAM】公众号(paopaorobot_slam)。
百度网盘提取码:9p0t
欢迎来到泡泡论坛,这里有大牛为你解答关于SLAM的任何疑惑。
有想问的问题,或者想刷帖回答问题,泡泡论坛欢迎你!
泡泡网站:www.paopaorobot.org
泡泡论坛:http://paopaorobot.org/bbs/
泡泡机器人SLAM的原创内容均由泡泡机器人的成员花费大量心血制作而成,希望大家珍惜我们的劳动成果,转载请务必注明出自【泡泡机器人SLAM】微信公众号,否则侵权必究!同时,我们也欢迎各位转载到自己的朋友圈,让更多的人能进入到SLAM这个领域中,让我们共同为推进中国的SLAM事业而努力!
商业合作及转载请联系liufuqiang_robot@hotmail.com