深度强化学习算法与应用研究现状综述

2021 年 1 月 13 日 专知


深度强化学习主要被用来处理感知-决策问题,已经成为人工智能领域重要的研究分支。概述了基于值函数和策略梯度的两类深度强化学习算法,详细阐述了深度Q网络、深度策略梯度及相关改进算法的原理,并综述了深度强化学习在视频游戏、导航、多智能体协作以及推荐系统等领域的应用研究进展。最后,对深度强化学习的算法和应用进行展望,针对一些未来的研究方向和研究热点给出了建议。


近年来,强化学习[1]方法受到了广泛的关注,其主要被用于解决序列决策问题。强化学习受到动物学习中试错法的启发,将智能体与环境交互得到的奖励值作为反馈信号对智能体进行训练。强化学习一般可以用马尔可夫决策过程(Markov decision process,MDP)表示,主要元素包含(S, A, R, T,γ),其中,S表示所处的环境状态,A表示智能体采取的动作,R表示得到的奖励值,T表示状态转移概率,γ表示折扣因子。智能体的策略π表示状态空间到动作空间的一个映射。当智能体状态st∈S时,根据策略π采取动作at∈A,进而根据状态转移概率T转移到下一个状态st+1,同时接收环境反馈的奖励值rt∈R。强化学习的目标是不断地优化智能体的策略,从而得到最大的奖励值。智能体的值函数和动作值函数分别为