Understanding a controller's performance in different scenarios is crucial for robots that are going to be deployed in safety-critical tasks. If we do not have a model of the dynamics of the world, which is often the case in complex domains, we may need to approximate a performance function of the robot based on its interaction with the environment. Such a performance function gives us insights into the behaviour of the robot, allowing us to fine-tune the controller with manual interventions. In high-dimensionality systems, where the actionstate space is large, fine-tuning a controller is non-trivial. To overcome this problem, we propose a performance function whose domain is defined by external features and parameters of the controller. Attainment regions are defined over such a domain defined by feature-parameter pairs, and serve the purpose of enabling prediction of successful execution of the task. The use of the feature-parameter space -in contrast to the action-state space- allows us to adapt, explain and finetune the controller over a simpler (i.e., lower dimensional space). When the robot successfully executes the task, we use the attainment regions to gain insights into the limits of the controller, and its robustness. When the robot fails to execute the task, we use the regions to debug the controller and find adaptive and counterfactual changes to the solutions. Another advantage of this approach is that we can generalise through the use of Gaussian processes regression of the performance function in the high-dimensional space. To test our approach, we demonstrate learning an approximation to the performance function in simulation, with a mobile robot traversing different terrain conditions. Then, with a sample-efficient method, we propagate the attainment regions to a physical robot in a similar environment.
翻译:理解一个控制器在不同情景中的性能对于将部署在安全关键任务中的机器人来说至关重要。 如果我们没有世界动态模型, 而在复杂的域中通常是这样, 我们可能需要根据机器人与环境的相互作用来估计机器人的性能功能。 这样的性能功能使我们能洞察到机器人的行为, 使我们能够用手动干预对控制器进行微调。 在高维系统中, 动作状态空间很大, 微调控制器是非三进制的。 为了克服这一问题, 我们提议了一个性能函数, 其范围由控制器的外部特征和参数来界定。 适应区域被定义为特性参数参数参数匹配的域, 并且服务于预测任务的成功执行。 使用特性控制器空间空间( 相对于动作状态空间空间) 来调整、 解释和微调控制器控制器, 与较简单的方法相比, 低维度空间空间。 当机器人成功执行这项任务时, 我们利用实现性能区域 来了解一个精确性能的变化, 也就是我们使用一个精确性能的测试, 从而找到一个精确度, 控制器的升级的功能。 当我们使用一个常规的功能时, 当我们无法在操作中找到一个精确的轨道上,,, 的升级的升级的功能, 我们去去一个方向, 我们去一个方向, 的路径, 我们去一个方向, 的路径, 来去一个方向, 我们去一个方向, 我们去一个方向, 我们去一个方向, 我们去一个方向, 的操作一个方向的轨道的操作一个方向, 我们去一个方向, 来去一个方向, 我们到一个方向, 的操作,,, 的操作的操作一个方向的操作一个方向的操作一个方向的轨道的操作一个方向的轨道的操作的操作的操作的操作的操作的操作的轨道的轨道的操作的操作的轨道的轨道的操作的轨道的轨道的功能, 。