表示学习对于强化学习的实际成功至关重要。通过状态表示,一个代理可以描述其环境以有效地探索状态空间,泛化到新状态,并从延迟反馈中进行归因分配。这些表示可能是状态抽象、手工设计或固定特征,或由神经网络隐含。在本论文中,我们调查了状态表示的几个理想的理论属性,并利用这一分类,设计了新的原理性强化学习算法,旨在通过深度学习在大规模上学习这些状态表示。 首先,我们考虑由行为指标引起的状态抽象及其泛化特性。我们展示了支持价值函数连续性对于强化学习中的泛化至关重要。结合这种形式化,我们提供了一个实证评估,比较了各种指标,并展示了邻域选择在强化学习算法中的重要性。 然后,我们借鉴统计学习理论来描述任意状态特征在强化学习中泛化的含义。我们引入了一个称为表示的有效维度的新概念,它推动了对未见状态的泛化,并展示了其在Atari游戏中基于价值的深度强化学习中的用处。 本论文的第三个贡献是一种可扩展算法,通过深度学习从大量辅助任务中学习状态表示。这是一种随机梯度下降方法,通过神经网络从少量条目中学习目标矩阵的主成分。 最后,论文的最后部分介绍了我们对状态表示如何影响代理预测质量,以及这些预测如何塑造状态表示的发现。我们提供了一个正式的数学模型来研究这种现象,并展示了如何利用这些理论结果来提高学习过程的质量。