A Theory of Abstraction in Reinforcement Learning.
论文链接:https://david-abel.github.io/thesis.pdf
强化学习定义了学习仅通过行动和观察做出好的决策的智能体所面临的问题。要成为有效的问题解决者,这些智能体必须有效地探索广阔的世界,从延迟的反馈中获得 credit,并归纳出新的经验,同时利用有限的数据、计算资源和感知带宽。抽象(abstraction)对于所有这些努力都是必不可少的。通过抽象,智能体可以搭建起关于其环境的简洁模型,这些模型支持一个合理的、适应性强的决策者所需的许多实践。
在这篇论文中,作者提出了一个强化学习中的抽象理论。具体来说,他首先提供了实现抽象过程的函数的三个要求。它们应该:1)保持接近最佳行为的表示;2 该被有效地学习和构造;3)减少规划或学习时间。
接下来,他提出了一套新的算法和分析结果,阐明了智能体如何能够根据这些需求学习抽象。
总的来说,这些结果提供了发现和使用抽象的部分路径,最小化了有效强化学习的复杂性。