题目: Options of Interest Temporal Abstraction with Interest Function
摘要: 时间抽象指的是一个代理使用控制器行为的能力,这些控制器在有限的、可变的时间内起作用。期权框架描述了这样的行为,包括一个子集的状态,他们可以在其中发起,一个内部政策和随机终止条件。然而,由于难以从数据中学习到初始集,后续的期权发现工作大多忽略了初始集。通过定义与一个选项相关联的兴趣函数,我们提供了一个适用于一般函数逼近的启动集的推广。提出了一种基于梯度的兴趣函数学习算法,提出了一种新的兴趣选择评价体系结构。我们研究如何利用兴趣函数来学习可解释和可重用的时态抽象。我们通过在离散和连续环境中的定量和定性结果证明了所提方法的有效性。
作者简介: Pierre-Luc Bacon,蒙特利尔大学迪罗和米拉分校的助理教授。个人主页:http://pierrelucbacon.com/