强化学习是一种优化决策的框架,考虑到行动的长期后果。
强化学习的深度变种已成为在复杂环境中进行决策的强大工具。以往的工作已经在复杂游戏如围棋和Atari中取得了突破,甚至超越了地球上一些最优秀的人类选手。然而,这些令人印象深刻的成就通常局限于游戏或仿真环境。那么,是什么阻碍它们进入现实世界呢?在本文中,我们解决了一个主要的瓶颈:有限和不完美的感官信息。
在许多现实任务中,感官信息往往是噪声或不完整的,这打破了强化学习的核心假设。解决这一挑战的方案实际上是众所周知的——即使用记忆。记忆是感官信息的存储与回忆,用于决策过程,这类似于人类和许多其他生物体内记忆的功能。记忆使得这些生物体能够建立并更新世界的内部表征,做出合理的猜测,并在不确定性面前取得成功。然而,尚不清楚的是,如何以可靠和可处理的方式建模记忆。本文的目标是让记忆建模变得稍微不那么难以处理,并稍微更具实用性。
首先,我们提出了一种利用我们对任务已有的先验知识的记忆形式。通过使用这些知识,我们动态构建一个记忆图,与标准记忆模型相比,提高了数据和参数的效率。接着,我们讨论了对记忆模型的大规模研究。我们设计了一系列程序化生成的任务,然后在这些任务上实现并评估各种记忆模型。我们采取实践性的方法,确定哪些模型具有潜力,从而为未来的研究人员节省时间和计算资源。然后,我们探讨了计算心理学家所提出的人类记忆模型。基于这些原则,我们开发了一种记忆模型,达到了比标准模型更好的时间和空间效率。我们进一步展示了该方法优于以往的研究,同时还展现了有趣的理论特性。最后,我们发现了一个统一的理论框架,用于高效的记忆建模,涵盖了许多现有的记忆模型。通过这个框架,我们提出了一种新的训练记忆模型的方法,从而提高了时间、空间和数据的效率。