表示学习对于强化学习的实际成功至关重要。通过状态表示,一个代理可以描述其环境以有效地探索状态空间,泛化到新状态,并从延迟反馈中进行归因分配。这些表示可能是状态抽象、手工设计或固定特征,或由神经网络隐含。在本论文中,我们调查了状态表示的几个理想的理论属性,并利用这一分类,设计了新的原理性强化学习算法,旨在通过深度学习在大规模上学习这些状态表示。 首先,我们考虑由行为指标引起的状态抽象及其泛化特性。我们展示了支持价值函数连续性对于强化学习中的泛化至关重要。结合这种形式化,我们提供了一个实证评估,比较了各种指标,并展示了邻域选择在强化学习算法中的重要性。 然后,我们借鉴统计学习理论来描述任意状态特征在强化学习中泛化的含义。我们引入了一个称为表示的有效维度的新概念,它推动了对未见状态的泛化,并展示了其在Atari游戏中基于价值的深度强化学习中的用处。 本论文的第三个贡献是一种可扩展算法,通过深度学习从大量辅助任务中学习状态表示。这是一种随机梯度下降方法,通过神经网络从少量条目中学习目标矩阵的主成分。 最后,论文的最后部分介绍了我们对状态表示如何影响代理预测质量,以及这些预测如何塑造状态表示的发现。我们提供了一个正式的数学模型来研究这种现象,并展示了如何利用这些理论结果来提高学习过程的质量。

成为VIP会员查看完整内容
58

相关内容

深度强化学习 (DRL) 是一种使用深度学习技术扩展传统强化学习方法的一种机器学习方法。 传统强化学习方法的主要任务是使得主体根据从环境中获得的奖赏能够学习到最大化奖赏的行为。然而,传统无模型强化学习方法需要使用函数逼近技术使得主体能够学习出值函数或者策略。在这种情况下,深度学习强大的函数逼近能力自然成为了替代人工指定特征的最好手段并为性能更好的端到端学习的实现提供了可能。
【爱丁堡大学博士论文】图聚类结构的学习,164页pdf
专知会员服务
19+阅读 · 2023年1月5日
【干货书】计算机科学离散数学,627页pdf
专知
60+阅读 · 2020年8月31日
深度多模态表示学习综述论文,22页pdf
专知
30+阅读 · 2020年6月21日
多模态深度学习综述,18页pdf
专知
48+阅读 · 2020年3月29日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
157+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
398+阅读 · 2023年3月31日
Arxiv
66+阅读 · 2023年3月26日
Arxiv
139+阅读 · 2023年3月24日
Arxiv
20+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员