**强化学习(Reinforcement learning, RL)是一种机器学习范式,研究智能体如何学习预测和控制自己的经验流,以最大化长期累积奖励。**在过去的十年中,深度强化学习(deep reinforcement learning, DeepRL)是一个旨在将强化学习中的序列决策技术与深度学习提供的强大的非线性函数逼近工具相结合的子领域,取得了巨大的成功,例如在古老的棋盘游戏围棋中击败人类冠军,以及在复杂的战略游戏如Dota 2和星际争霸中取得专家级别的表现。它还对现实世界的应用产生了影响。例如机器人控制、平流层气球导航和控制核聚变等离子体。
https://deepblue.lib.umich.edu/handle/2027.42/174601
**本文旨在进一步推进深度学习技术。**具体而言,本文在以下四个方面做出了贡献:1)在奖励设计方面,提出了一种新的元学习算法,用于学习有助于策略优化的奖励函数。该算法提高了策略梯度方法的性能,并优于手工设计的启发式奖励函数。在后续研究中,学习到的奖励函数可以捕获关于长期探索和开发的知识,并可以泛化到不同的强化学习算法和环境动态的变化。2)在时间信用分配中,本文探索了基于成对权重的方法,这些权重是采取行动的状态、收到奖励的状态和之间经过的时间的函数。本文开发了一种元梯度算法,用于在策略学习期间自适应这些权重。实验表明,该方法比其他方法取得了更好的性能。3)在状态表示学习中,本文研究使用随机深度动作条件预测任务作为辅助任务,以帮助智能体学习更好的状态表示。实验表明,随机的深度动作条件预测通常可以产生比手工设计的辅助任务更好的性能。4)在模型学习和规划中,提出了一种学习价值等价模型的新方法,这是一类最近表现出强大经验性能的模型,推广了现有的方法。实验结果表明,该方法能够提高模型预测精度和下游规划过程的控制性能。
密歇根大学是美国的一所顶尖公立院校,被誉为中西部的哈佛。密歇根大学的主校区在底特律的卫星城安娜堡,绰号是狼獾。它成立于1817年,被称为公立大学的典范,是公立常青藤之一。