强化学习(ReinforcementLearning,RL)作为机器学习领域中与监督学习、无监督学习并列的第三种学习范式,通过与 环境进行交互来学习,最终将累积收益最大化.常用的强化学习算法分为模型化强化学习(ModelGbasedReinforcementLearG ning)和无模型强化学习(ModelGfreeReinforcementLearning).模型化强化学习需要根据真实环境的状态转移数据来预定义 环境动态模型,随后在通过环境动态模型进行策略学习的过程中无须再与环境进行交互.在无模型强化学习中,智能体通过与 环境进行实时交互来学习最优策略,该方法在实际任务中具有更好的通用性,因此应用范围更广.文中对无模型强化学习的最 新研究进展与发展动态进行了综述.首先介绍了强化学习、模型化强化学习和无模型强化学习的基础理论;然后基于价值函数 和策略函数归纳总结了无模型强化学习的经典算法及各自的优缺点;最后概述了无模型强化学习在游戏 AI、化学材料设计、自 然语言处理和机器人控制领域的最新研究现状,并对无模型强化学习的未来发展趋势进行了展望.