结合进化算法的深度强化学习方法研究综述

2022 年 7 月 16 日 专知



深度强化学习是目前机器学习领域中重要的研究分支之一,它可以通过直接与环境进行交互实现端到端的学习,对高维度和大规模的问题有着很好的解决能力.虽然深度强化学习已经取得了瞩目的成果,但其仍面临着对环境探索能力不足、鲁棒性差、容易受到由欺骗性奖励导致的欺骗性梯度影响等问题.进化算法普遍具有较好的 全局搜索能力、良好的鲁棒性和并行性等优点,因此将进化算法与深度强化学习结合用于弥补深度强化学习不足 的方法成为了当前研究的热点.该文主要关注进化算法在无模型的深度强化学习方法中的应用,首先简单介绍了 进化算法和强化学习基本方法,之后详细阐述了两类结合进化算法的强化学习方法,分别是进化算法引导策略搜 索的强化学习和结合进化算法的深度强化学习,同时对这些方法进行了对比与分析,最后对该领域的研究重点和 发展趋势进行了探究.

长期以来,强化学习都是机器学习方法中不可 或缺的一部分,在国际上也一直是机器学习领域中 炙手可热的研究分支.在强化学习中,智能体首先根 据环境状态进行决策从而产生动作,之后通过产生 的动作与环境进行交互获得强化信号,调整产生决 策的函数映射,使得智能体能够选择获得环境最大 奖励的决策方案.智能体经过长期与环境的交互,不 断向累积回报最大的方向优化策略,最终使累积回 报尽可能地最大化.2013年,DeepMind团队的 Mnih 等人首先将 传统强化学习中的Q-Learning算法[1]与深度神经网 络相结合,并提出了深度Q 网络(Deep Q-Network, DQN)算法[23],使用 DQN 算法训练的智能体在Atari游戏中取得了超过人类得分的惊人表现.这一成 果开拓了深度强化学习这一新的方向,并成为了当今人工智能领 域新的研究热点.深度强化学习是一种端到端的学习方法,它不需要标记的数据作为输入,而是通过与环境进行交互获取原始输入信息,从而学习动作策略,通过不断的试错形成具有强大学习能力的智能体[4].2016年,DeepMind团队使用深度强化学习训练的AlphaGo智能体[5]击败了人类最顶尖的围棋 选手,是机器学习领域的重大标志性事件,使得深度强化学习成为研究者们关注的焦点.目前深度强化 学习在机器博弈[57]、机器人控制[8]、自然语言处理[9]、最优控制[10]和计算机视觉[1]等领域中取得了广泛的应用,被认为是通向通用人工智能的重要方 法之一[12].

专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“EDRL” 就可以获取结合进化算法的深度强化学习方法研究综述》专知下载链接

                       
专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取100000+AI(AI与军事、医药、公安等)主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取100000+AI主题知识资料
登录查看更多
2

相关内容

「人机对抗中的博弈学习方法」最新2022综述
专知会员服务
110+阅读 · 2022年9月11日
基于强化学习的知识图谱综述
专知会员服务
186+阅读 · 2022年8月20日
基于模型的强化学习综述
专知会员服务
132+阅读 · 2022年7月13日
强化学习可解释性基础问题探索和方法综述
专知会员服务
85+阅读 · 2022年1月16日
专知会员服务
152+阅读 · 2021年8月3日
专知会员服务
124+阅读 · 2021年3月13日
专知会员服务
132+阅读 · 2021年1月13日
专知会员服务
100+阅读 · 2021年1月1日
最新《深度强化学习中的迁移学习》综述论文
专知会员服务
153+阅读 · 2020年9月20日
基于模型的强化学习综述
专知
17+阅读 · 2022年7月13日
基于深度强化学习的作战辅助决策研究
专知
6+阅读 · 2022年6月8日
深度强化学习的攻防与安全性分析综述
专知
1+阅读 · 2022年1月16日
联邦学习研究综述
专知
11+阅读 · 2021年12月25日
群体行为识别深度学习方法研究综述
专知
0+阅读 · 2021年11月29日
深度强化学习简介
专知
29+阅读 · 2018年12月3日
【深度强化学习】深度强化学习揭秘
产业智能官
20+阅读 · 2017年11月13日
国家自然科学基金
36+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
Arxiv
0+阅读 · 2022年9月12日
Arxiv
35+阅读 · 2022年3月14日
Arxiv
55+阅读 · 2021年5月3日
A Comprehensive Survey on Graph Neural Networks
Arxiv
21+阅读 · 2019年1月3日
VIP会员
相关VIP内容
「人机对抗中的博弈学习方法」最新2022综述
专知会员服务
110+阅读 · 2022年9月11日
基于强化学习的知识图谱综述
专知会员服务
186+阅读 · 2022年8月20日
基于模型的强化学习综述
专知会员服务
132+阅读 · 2022年7月13日
强化学习可解释性基础问题探索和方法综述
专知会员服务
85+阅读 · 2022年1月16日
专知会员服务
152+阅读 · 2021年8月3日
专知会员服务
124+阅读 · 2021年3月13日
专知会员服务
132+阅读 · 2021年1月13日
专知会员服务
100+阅读 · 2021年1月1日
最新《深度强化学习中的迁移学习》综述论文
专知会员服务
153+阅读 · 2020年9月20日
相关资讯
基于模型的强化学习综述
专知
17+阅读 · 2022年7月13日
基于深度强化学习的作战辅助决策研究
专知
6+阅读 · 2022年6月8日
深度强化学习的攻防与安全性分析综述
专知
1+阅读 · 2022年1月16日
联邦学习研究综述
专知
11+阅读 · 2021年12月25日
群体行为识别深度学习方法研究综述
专知
0+阅读 · 2021年11月29日
深度强化学习简介
专知
29+阅读 · 2018年12月3日
【深度强化学习】深度强化学习揭秘
产业智能官
20+阅读 · 2017年11月13日
相关基金
国家自然科学基金
36+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
Top
微信扫码咨询专知VIP会员