结合进化算法的深度强化学习方法研究综述

深度强化学习是目前机器学习领域中重要的研究分支之一，它可以通过直接与环境进行交互实现端到端的学习，对高维度和大规模的问题有着很好的解决能力．虽然深度强化学习已经取得了瞩目的成果，但其仍面临着对环境探索能力不足、鲁棒性差、容易受到由欺骗性奖励导致的欺骗性梯度影响等问题．进化算法普遍具有较好的全局搜索能力、良好的鲁棒性和并行性等优点，因此将进化算法与深度强化学习结合用于弥补深度强化学习不足的方法成为了当前研究的热点．该文主要关注进化算法在无模型的深度强化学习方法中的应用，首先简单介绍了进化算法和强化学习基本方法，之后详细阐述了两类结合进化算法的强化学习方法，分别是进化算法引导策略搜索的强化学习和结合进化算法的深度强化学习，同时对这些方法进行了对比与分析，最后对该领域的研究重点和发展趋势进行了探究．长期以来，强化学习都是机器学习方法中不可或缺的一部分，在国际上也一直是机器学习领域中炙手可热的研究分支．在强化学习中，智能体首先根据环境状态进行决策从而产生动作，之后通过产生的动作与环境进行交互获得强化信号，调整产生决策的函数映射，使得智能体能够选择获得环境最大奖励的决策方案．智能体经过长期与环境的交互，不断向累积回报最大的方向优化策略，最终使累积回报尽可能地最大化．2013年，DeepMind团队的 Mnih 等人首先将传统强化学习中的Q-Learning算法［１］与深度神经网络相结合，并提出了深度Ｑ网络（Deep Q-Network，ＤＱＮ）算法［２３］，使用ＤＱＮ算法训练的智能体在Atari游戏中取得了超过人类得分的惊人表现．这一成果开拓了深度强化学习这一新的方向，并成为了当今人工智能领域新的研究热点．深度强化学习是一种端到端的学习方法，它不需要标记的数据作为输入，而是通过与环境进行交互获取原始输入信息，从而学习动作策略，通过不断的试错形成具有强大学习能力的智能体［４］．2016年，DeepMind团队使用深度强化学习训练的AlphaGo智能体［５］击败了人类最顶尖的围棋选手，是机器学习领域的重大标志性事件，使得深度强化学习成为研究者们关注的焦点．目前深度强化学习在机器博弈［５７］、机器人控制［８］、自然语言处理［９］、最优控制［１０］和计算机视觉［１］等领域中取得了广泛的应用，被认为是通向通用人工智能的重要方法之一［１２］．

成为VIP会员查看完整内容

相关内容

深度强化学习

关注 156

深度强化学习 (DRL) 是一种使用深度学习技术扩展传统强化学习方法的一种机器学习方法。传统强化学习方法的主要任务是使得主体根据从环境中获得的奖赏能够学习到最大化奖赏的行为。然而，传统无模型强化学习方法需要使用函数逼近技术使得主体能够学习出值函数或者策略。在这种情况下，深度学习强大的函数逼近能力自然成为了替代人工指定特征的最好手段并为性能更好的端到端学习的实现提供了可能。

基于强化学习的知识图谱综述

专知会员服务

205+阅读 · 2022年8月20日

基于模型的强化学习综述

专知会员服务

148+阅读 · 2022年7月13日

多智能体深度强化学习：综述

专知会员服务

170+阅读 · 2021年8月3日

记忆增强型深度强化学习研究综述

专知会员服务

52+阅读 · 2021年4月6日