Understanding a controller's performance in different scenarios is crucial for robots that are going to be deployed in safety-critical tasks. If we do not have a model of the dynamics of the world, which is often the case in complex domains, we may need to approximate a performance function of the robot based on its interaction with the environment. Such a performance function gives us insights into the behaviour of the robot, allowing us to fine-tune the controller with manual interventions. In high-dimensionality systems, where the actionstate space is large, fine-tuning a controller is non-trivial. To overcome this problem, we propose a performance function whose domain is defined by external features and parameters of the controller. Attainment regions are defined over such a domain defined by feature-parameter pairs, and serve the purpose of enabling prediction of successful execution of the task. The use of the feature-parameter space -in contrast to the action-state space- allows us to adapt, explain and finetune the controller over a simpler (i.e., lower dimensional space). When the robot successfully executes the task, we use the attainment regions to gain insights into the limits of the controller, and its robustness. When the robot fails to execute the task, we use the regions to debug the controller and find adaptive and counterfactual changes to the solutions. Another advantage of this approach is that we can generalise through the use of Gaussian processes regression of the performance function in the high-dimensional space. To test our approach, we demonstrate learning an approximation to the performance function in simulation, with a mobile robot traversing different terrain conditions. Then, with a sample-efficient method, we propagate the attainment regions to a physical robot in a similar environment.


翻译:理解一个控制器在不同情景中的性能对于将部署在安全关键任务中的机器人来说至关重要。 如果我们没有世界动态模型, 而在复杂的域中通常是这样, 我们可能需要根据机器人与环境的相互作用来估计机器人的性能功能。 这样的性能功能使我们能洞察到机器人的行为, 使我们能够用手动干预对控制器进行微调。 在高维系统中, 动作状态空间很大, 微调控制器是非三进制的。 为了克服这一问题, 我们提议了一个性能函数, 其范围由控制器的外部特征和参数来界定。 适应区域被定义为特性参数参数参数匹配的域, 并且服务于预测任务的成功执行。 使用特性控制器空间空间( 相对于动作状态空间空间) 来调整、 解释和微调控制器控制器, 与较简单的方法相比, 低维度空间空间。 当机器人成功执行这项任务时, 我们利用实现性能区域 来了解一个精确性能的变化, 也就是我们使用一个精确性能的测试, 从而找到一个精确度, 控制器的升级的功能。 当我们使用一个常规的功能时, 当我们无法在操作中找到一个精确的轨道上,,, 的升级的升级的功能, 我们去去一个方向, 我们去一个方向, 的路径, 我们去一个方向, 的路径, 来去一个方向, 我们去一个方向, 我们去一个方向, 我们去一个方向, 我们去一个方向, 的操作一个方向的轨道的操作一个方向, 我们去一个方向, 来去一个方向, 我们到一个方向, 的操作,,, 的操作的操作一个方向的操作一个方向的操作一个方向的轨道的操作一个方向的轨道的操作的操作的操作的操作的操作的操作的轨道的轨道的操作的操作的轨道的轨道的操作的轨道的轨道的功能, 。

0
下载
关闭预览

相关内容

Linux导论,Introduction to Linux,96页ppt
专知会员服务
79+阅读 · 2020年7月26日
知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
109+阅读 · 2020年6月10日
商业数据分析,39页ppt
专知会员服务
161+阅读 · 2020年6月2日
MIT新书《强化学习与最优控制》
专知会员服务
277+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
已删除
将门创投
4+阅读 · 2019年5月8日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
BranchOut: Regularization for Online Ensemble Tracking with CNN
统计学习与视觉计算组
9+阅读 · 2017年10月7日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
0+阅读 · 2021年10月3日
Arxiv
3+阅读 · 2018年5月21日
Arxiv
3+阅读 · 2018年1月31日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
已删除
将门创投
4+阅读 · 2019年5月8日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
BranchOut: Regularization for Online Ensemble Tracking with CNN
统计学习与视觉计算组
9+阅读 · 2017年10月7日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员