强化学习是一种优化决策的框架,考虑到行动的长期后果。

强化学习的深度变种已成为在复杂环境中进行决策的强大工具。以往的工作已经在复杂游戏如围棋和Atari中取得了突破,甚至超越了地球上一些最优秀的人类选手。然而,这些令人印象深刻的成就通常局限于游戏或仿真环境。那么,是什么阻碍它们进入现实世界呢?在本文中,我们解决了一个主要的瓶颈:有限和不完美的感官信息。

在许多现实任务中,感官信息往往是噪声或不完整的,这打破了强化学习的核心假设。解决这一挑战的方案实际上是众所周知的——即使用记忆。记忆是感官信息的存储与回忆,用于决策过程,这类似于人类和许多其他生物体内记忆的功能。记忆使得这些生物体能够建立并更新世界的内部表征,做出合理的猜测,并在不确定性面前取得成功。然而,尚不清楚的是,如何以可靠和可处理的方式建模记忆。本文的目标是让记忆建模变得稍微不那么难以处理,并稍微更具实用性。

首先,我们提出了一种利用我们对任务已有的先验知识的记忆形式。通过使用这些知识,我们动态构建一个记忆图,与标准记忆模型相比,提高了数据和参数的效率。接着,我们讨论了对记忆模型的大规模研究。我们设计了一系列程序化生成的任务,然后在这些任务上实现并评估各种记忆模型。我们采取实践性的方法,确定哪些模型具有潜力,从而为未来的研究人员节省时间和计算资源。然后,我们探讨了计算心理学家所提出的人类记忆模型。基于这些原则,我们开发了一种记忆模型,达到了比标准模型更好的时间和空间效率。我们进一步展示了该方法优于以往的研究,同时还展现了有趣的理论特性。最后,我们发现了一个统一的理论框架,用于高效的记忆建模,涵盖了许多现有的记忆模型。通过这个框架,我们提出了一种新的训练记忆模型的方法,从而提高了时间、空间和数据的效率。

成为VIP会员查看完整内容
1

相关内容

剑桥大学(英语:University of Cambridge;勋衔:Cantab)为一所座落于英国剑桥郡剑桥市的研究型大学。它是英语世界中历史第二悠久的大学,也是世界现存第四古老的大学。剑桥大学的起源为一群牛津大学的学者,因与牛津市民发生冲突而移居至剑桥。剑桥与牛津这两所在中世纪建立的英国大学,在校务运作、学术声望、社会地位等多方面都非常相似,经常合称为“牛剑”
【MIT博士论文】高效深度学习计算的模型加速
专知会员服务
27+阅读 · 8月23日
【多伦多大学博士论文】深度学习中的训练效率和鲁棒性
综述| 当图神经网络遇上强化学习
图与推荐
29+阅读 · 2022年7月1日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
论文浅尝 | 采用多层注意力机制的事件检测
开放知识图谱
23+阅读 · 2019年8月24日
7个实用的深度学习技巧
机器学习算法与Python学习
16+阅读 · 2019年3月6日
【机器学习】深入剖析机器学习中的统计思想
产业智能官
14+阅读 · 2019年1月24日
机器学习必知的15大框架
云栖社区
16+阅读 · 2017年12月10日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
26+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
国家自然科学基金
21+阅读 · 2009年12月31日
Arxiv
158+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
407+阅读 · 2023年3月31日
Arxiv
146+阅读 · 2023年3月24日
Arxiv
21+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
26+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
国家自然科学基金
21+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员