《即时战略游戏和工业应用的安全深度强化学习》2022最新博士论文

2022 年 9 月 3 日 专知

深度强化学习因其在解决复杂的视频游戏和工业应用方面的成功而引起了工业界和学术界的广泛关注。最近，硬件和计算方面的进步成倍地增加了计算能力的可用性，促进了深度神经网络的训练。这些网络可以从高维数据中学习RL行为策略，并且比精确的表格解决方案表现得更好，尽管需要相当多的计算机资源。

游戏是评估强化学习（RL）算法的行为特性和规划效率最常用的应用之一。它们可以提供训练深度学习模型所需的数据结构和数量。专门制作的游戏可以表达现实世界的工业应用，以减少设置成本，同时大幅提高可重复性。RL可以提高专家系统占主导地位的工业应用的效率，减少人工和潜在的危险劳动。应用工业强化学习的问题是，传统方法是通过试验和错误来学习。正因为如此，RL智能体在学习过程中存在遇到灾难性事件的风险，这可能会对人类或设备造成损害。因此，使用游戏来训练和研究安全的RL智能体很有吸引力。

即时战略（RTS）游戏由于其高维的状态和行动空间而特别吸引人。此外，RTS游戏与工业和现实世界的应用有许多共同的属性，如同时行动、不完美信息和系统随机性。最近的进展表明，无模型RL算法可以在《星际争霸II》这样的游戏中学习到超人的表现，同样使用了大量的计算能力。因此，缺点是这些算法昂贵且难以训练，使得将同样的方法用于工业应用具有挑战性。在开源环境中也有大量的状态空间复杂性的差距。这就限制了算法的评估，使其只适用于工业应用中充分操作所需的任务子集。

游戏环境：本论文通过提出六个新的游戏环境来解决环境差距问题，以评估几个任务中的RL算法。Deep Line Wars和Deep RTS是两个新的RTS环境，用于测试不完美信息下长期规划的算法。Deep Maze是一个灵活的迷宫环境，用于学习RL智能体从记忆中导航迷宫。Deep Warehouse是一个专门制作的环境，用于评估自动存储和检索系统（ASRS）中RL算法的安全性，这也是本论文的唯一重点。ASRS有自主车辆，在一个三维网格中寻求最大的物品吞吐量。拟议环境的设计目标是为RL算法的评估提供大量的额外问题。因此，所有的环境都提供了调整问题复杂性的参数和一个灵活的场景引擎，可以挑战各种问题的算法，如记忆和控制。我们的经验表明，我们的环境比类似复杂度的环境在计算上明显更有效率。提出的环境的多样性可以帮助填补文献中的复杂性空白。我们最后介绍了用于高性能RL研究的人工智能和强化学习中心（CaiRL）工具包，它在一个单一的运行时间内收集了所有提议的环境。

基于模型的RL：本论文还介绍了新的节能、高性能的RL算法，用于RTS游戏和使用所介绍的环境的工业近似模拟。无模型强化学习在模拟环境中显示出有希望的结果，但对于工业应用来说是不够的。他们需要收集数以百万计的样本并通过试验和错误来学习。相反，基于模型的强化学习（MBRL）利用已知的或学到的动力学模型，可以大幅提高样本效率。因此，与无模型的RL方法相比，基于模型的RL在工业应用中是一个更稳健的研究选择。目前基于模型的RL文献显示，基于深度学习的模型表现最好，但也有一些不足之处。深度学习模型通常对超参数很敏感，真实环境的轻微变化都会显著影响模型的准确性。此外，现有的模型在推导行为策略时并不考虑安全或风险，这使得此类方法在工业应用中存在问题。

这篇论文解决了其中的一些挑战，并提出了新的基于模型的强化学习方法，这些方法注重决策安全和样本效率。我们的算法，Dreaming变分自动编码器（DVAE），深度变分 Q 网络（DVQN）和观察奖励行动成本学习集成（ORACLE），结合了基于模型的RL和改进贝叶斯方法来训练现有和拟议环境中的动力学模型。DVAE算法使用递归神经网络和变异自动编码器来学习动力学模型，并在原始环境中显示出有效性。DVQN使用变异自动编码器和深度Q网络来实现可解释和可分离的潜在空间，并有助于分层强化学习中的自动选项发现。最后，ORACLE结合了状态空间、递归神经和随机神经网络。该算法显示了最先进的预测能力，同时使用辅助的安全目标进行更安全的学习。

然后，我们利用动力学模型的优势，离线训练无模型算法。此外，我们利用风险导向的探索和好奇心来建立对风险敏感的智能体，以提高游戏和工业应用的决策安全性。我们的经验表明，我们的方法在大多数情况下比最先进的无模型和基于模型的算法在传统的RL基准、RTS游戏和模拟的工业应用中表现更好。

总而言之，我们相信本论文中提出的游戏环境、RL方法和研究将推动所课题中最先进的研究，并为在工业应用中实现基于模型的RL做出积极的贡献。

论文大纲

本学位论文由两部分组成。第一部分概述了整个博士学习期间所进行的工作。第二部分包括代表本论文主要贡献的出版物和在审文章，见贡献清单。本论文的其余部分结构如下。

第二章：背景介绍了本论文中使用的技术的背景文献。这包括马尔科夫决策过程、强化学习、安全强化学习和各种深度学习建模技术。

第三章：文献综述介绍了强化学习的科学进展的全面文献综述，这些文献激励并启发了我们的贡献。我们研究的关键词是基于模型的、安全的、环境的、目标导向的RL、可解释的RL，以及，分层的RL。

第四章：软件贡献和评估描述了我们对新型强化学习环境的科学软件贡献。我们提出了新的环境，以填补目前最先进的状态复杂性的差距，并讨论了我们的动机，设计规范，并提供基线结果和评估。

第五章：算法贡献介绍了我们在RTS游戏中基于安全模型的强化学习的新技术的主要贡献，以实现一个功能性的工业级强化学习解决方案。具体来说，我们介绍了开展这项工作的动机，并描述了我们算法的细节。我们提供了在实验中导致最佳结果的超参数，并总结了算法的贡献。

第六章：贡献评估使用提议的软件贡献实证评估我们的算法贡献，包括强化学习文献中最先进的环境。每一节都提出了一个假设，我们的目标是在实验和评估中解决这个问题。

第七章：结论和未来的工作结束了本论文的第一部分，并讨论了进行了博士工作的最终成就。最后，我们概述了未来的研究方向，这些方向有可能改进本论文中提出的工作。

第二部分介绍了博士工作期间的全部出版物。这些论文按时间顺序排列，大致代表本论文的流程。研究进展的详细图示见图1.1。

图1.1:颜色代码说明了以下主题。蓝色说明了新的研究环境的贡献，灰色是可解释性和层次性RL（选项）。紫色表示安全强化学习，黄色代表目标导向强化学习的工作。最后，绿色是我们在基于模型和安全RL方面的主要贡献。

便捷下载，请关注专知人工智能公众号（点击上方蓝色专知关注）

后台回复“RTS” 就可以获取《《即时战略游戏和工业应用的安全深度强化学习》2022最新博士论文》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取100000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取100000+AI主题知识资料

登录查看更多

相关内容

RTS

关注 0

RTS：Real-Time Systems。 Explanation：实时系统。 Publisher：Springer。 SIT:http://dblp.uni-trier.de/db/journals/rts/

【剑桥大学博士论文】计算机系统中的端到端深度强化学习，188页pdf

专知会员服务

40+阅读 · 2022年10月31日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

113+阅读 · 2022年10月6日

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知会员服务

106+阅读 · 2022年9月22日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知会员服务

259+阅读 · 2022年8月23日

【MIT博士论文】数据高效强化学习，176页pdf

专知会员服务

89+阅读 · 2022年7月11日

索邦大学最新博士论文《无人机辅助无线网络的机器学习方法》，167页pdf

专知会员服务

51+阅读 · 2022年4月8日

最新论文《战术网络的强化学习环境：基于多智能体的场景生成》德国弗劳恩霍夫研究所

专知会员服务

146+阅读 · 2022年4月5日

【伯克利博士论文】深度强化学习的探索与安全性，178页pdf

专知会员服务

80+阅读 · 2021年5月23日

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

专知会员服务

94+阅读 · 2020年9月28日

【CMU博士论文】机器人深度强化学习，128页pdf

专知会员服务

133+阅读 · 2020年8月27日

强化学习如何预训练？上交大腾讯最新《深度强化学习预训练》综述，41页pdf阐述DRL预训练在线离线方法

专知

5+阅读 · 2022年11月9日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

32+阅读 · 2022年10月17日

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

专知

4+阅读 · 2022年9月1日

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【MIT博士论文】数据高效强化学习，176页pdf

专知

18+阅读 · 2022年7月11日

【2022新书】强化学习工业应用

专知

18+阅读 · 2022年2月3日

【强化学习】强化学习的应用场景、基本概念、数学模型和交易中的应用

产业智能官

18+阅读 · 2019年1月1日

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

产业智能官

16+阅读 · 2018年12月27日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

41+阅读 · 2015年12月31日

基于强化学习的分布参数系统数据驱动控制

国家自然科学基金

7+阅读 · 2015年12月31日

基于Markov博弈的计算机网络对抗行动策略分析与建模研究

国家自然科学基金

17+阅读 · 2013年12月31日

Markov决策过程值函数逼近的基函数自动构造

国家自然科学基金

1+阅读 · 2012年12月31日

大功率无线电能传输系统效率最优控制策略研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

半无限规划问题的算法研究及其应用

国家自然科学基金

0+阅读 · 2008年12月31日

基于虚拟现实技术的远程协同介入手术训练的研究

国家自然科学基金

0+阅读 · 2008年12月31日

复杂网络动力学与控制及其在航空航天中的应用

国家自然科学基金

0+阅读 · 2008年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

11+阅读 · 2008年12月31日

Arxiv

0+阅读 · 2022年11月20日

PIC4rl-gym: a ROS2 modular framework for Robots Autonomous Navigation with Deep Reinforcement Learning

Arxiv

0+阅读 · 2022年11月19日

Clustering based opcode graph generation for malware variant detection

Arxiv

0+阅读 · 2022年11月18日

Recent Advances in Fully Dynamic Graph Algorithms

Arxiv

0+阅读 · 2022年11月17日

Geometric multimodal representation learning

Arxiv

69+阅读 · 2022年9月7日

Enable Deep Learning on Mobile Devices: Methods, Systems, and Applications

Arxiv

36+阅读 · 2022年4月25日

Decentralized and Communication-Free Multi-Robot Navigation through Distributed Games

Arxiv

40+阅读 · 2021年9月15日

MetaCURE: Meta Reinforcement Learning with Empowerment-Driven Exploration

Arxiv

12+阅读 · 2021年2月7日

A Multi-Objective Deep Reinforcement Learning Framework

Arxiv

16+阅读 · 2018年6月27日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

VIP会员