强化学习(RL)为数据驱动决策提供了一个通用框架。然而,正是这种通用性使得这种方法适用于广泛的问题,也导致了众所周知的效率低下。在这篇论文中,我们考虑了有趣的决策类所共有的不同属性,这些属性可以用来设计计算效率和数据效率都很高的学习算法。具体来说,这项工作研究了决策问题的各个方面的低秩结构和经典确定性规划的效果稀疏性,以及基于端到端模型的方法所依赖的性能。我们首先展示了后继表示中的低秩结构如何使高效在线学习算法的设计成为可能。类似地,我们展示了如何在Bellman算子中找到相同的结构,我们使用Bellman算子来制定最小二乘时间差分学习算法的有效变体。我们进一步探索状态特征中的低秩结构,以学习完全允许在低维空间中进行高效规划的有效转换模型。然后,我们进一步了解基于模型的端到端方法,以便更好地理解它们的属性。我们通过约束优化和隐式微分的视角来研究这类方法。通过隐式视角,我们得到了这些方法的属性,这些属性使我们能够确定它们执行良好的条件。在本文的最后,探索了如何利用经典规划问题的效果的稀疏性来定义一般的领域无关启发式方法,通过使用基于潜在的奖励塑造和提升函数近似,可以用来大大加快领域相关启发式方法的学习。
https://dspace.mit.edu/handle/1721.1/144562
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“C424” 就可以获取《【MIT博士论文】非参数因果推理的算法方法,424页pdf》专知下载链接