Leiden大学Aske Plaat教授《深度强化学习》2022新书,值得关注!

深度强化学习近年来备受关注。在自动驾驶、游戏、分子重组和机器人等各种活动中,他们都取得了令人印象深刻的成果。在所有这些领域,计算机程序已经学会了解决困难的问题。他们学会了飞行模型直升机和表演特技动作,如回旋和翻滚。在某些应用中,他们甚至比最优秀的人类还要优秀,比如Atari、Go、扑克和星际争霸。深度强化学习探索复杂环境的方式提醒我们,孩子们是如何学习的,通过开玩笑地尝试东西,获得反馈,然后再尝试。计算机似乎真的拥有人类学习的各个方面; 这是人工智能梦想的核心。教育工作者并没有忽视研究方面的成功,大学已经开始开设这方面的课程。这本书的目的是提供深度强化学习领域的全面概述。这本书是为人工智能的研究生写的,并为希望更好地理解深度强化学习方法和他们的挑战的研究人员和实践者。我们假设学生具备本科水平的计算机科学和人工智能知识;本书的编程语言是Python。我们描述了深度强化学习的基础、算法和应用。我们将介绍已建立的无模型和基于模型的方法,它们构成了该领域的基础。发展很快,我们还涵盖了一些高级主题: 深度多智能体强化学习、深度层次强化学习和深度元学习。

https://deep-reinforcement-learning.net/

这本书的目的是呈现在一个单一的深度强化学习的最新见解,适合教学一个研究生水平一个学期的课程。除了涵盖最先进的算法,我们涵盖经典强化学习和深度学习的必要背景。我们还涵盖了自我游戏、多主体、层次和元学习方面的先进的、前瞻性的发展。

深度强化学习建立在深度监督学习和表格强化学习的基础上

在这些章节中有很多材料,既有基础的,也有先进的,有很多文献。一种选择是讲授一门关于书中所有主题的课程。另一种选择是慢一些、深入一些,在基础知识上花足够的时间,创建关于Chaps. 2-5的课程,以涵盖基本主题(基于值、基于策略和基于模型的学习),并创建关于Chaps. 6-9的单独课程,以涵盖多智能体、分层和元学习等更高级的主题。

在这一介绍性的章节之后,我们将继续学习第二章,在第二章中,我们将详细讨论表格(非深度)强化学习的基本概念。我们从马尔可夫决策过程开始,并详细讨论它们。第三章解释了基于深度价值的强化学习。本章涵盖了为寻找最优策略而设计的第一个深度算法。我们仍将在基于价值、无模型的范式中工作。在本章的最后,我们将分析一个自学如何玩上世纪80年代Atari电子游戏的玩家。下一章,第四章,讨论了一种不同的方法:基于深度策略的强化学习。下一章,第5章,介绍了基于深度模型的强化学习与学习模型,该方法首先建立环境的过渡模型,然后再建立策略。基于模型的强化学习有希望获得更高的样本效率,从而加快学习速度。

成为VIP会员查看完整内容
0
57

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

本书分为三个部分。第一部分介绍了分布式强化学习的构建模块。我们首先介绍了我们的基本研究对象,收益分布和分布Bellman方程(第二章)。第三章介绍了分类时间差分学习,一种简单的学习收益分布的算法。在第三章结束时,读者应该理解分布式强化学习的基本原则,并且应该能够在简单的实际设置中使用它。

第二部分是对分布式强化学习理论的发展。第4章介绍了一种用于测量返回分布之间距离的语言,以及与这些分布交互的操作符。第5章介绍了实现分布式强化学习所需的概率表示的概念;在此基础上,研究了用这种表示来计算和近似收益分布的问题,并引入了分布动态规划的框架。第6章研究了如何从样本中以增量的方式学习返回分布,给出了类别时间差分学习的正式结构,以及其他算法,如分位数时间差异学习。第7章将这些思想扩展到最优决策的设置(也称为控制设置)。最后,第8章介绍了基于统计泛函概念的分布强化学习的不同视角。在第二部分结束时,读者应该理解在设计分布式强化学习算法时出现的挑战,以及解决这些挑战的可用工具。

第三部分和最后一部分为实际场景ios开发了分布式强化学习。第九章回顾了线性值函数逼近的原理,并将这些思想推广到分布环境中。第10章讨论了如何将分布方法与深度神经网络相结合来获得深度强化学习的算法,并提出了一个模型来研究这种结合所产生的现象。第11章讨论了分布式强化学习在两个进一步研究领域(多主体学习和神经科学)的新兴应用,并得出结论。

https://www.distributional-rl.org/

成为VIP会员查看完整内容
0
43

书籍主页:https://cs.nyu.edu/~mohri/mlbook/

《机器学习基础》(Foundations of Machine Learning)是对机器学习的通用简介,可作为研究者的参考书和学生的教科书来使用。该书覆盖机器学习领域的基础现代话题,同时提供讨论和算法证明所需的理论基础与概念工具。这本书还介绍了算法应用的多个关键方面。

这本书旨在呈现最新的理论工具和概念,同时提供准确的证明。该书写作风格力求简洁,同时讨论了机器学习领域的一些关键复杂话题,以及多个开放性研究问题。一些经常与其他话题混合的话题以及没有得到足够关注的话题在本书中得到了单独讨论和重视,例如,这本书专门有一个章节讲多类别分类、排序和回归。

这本书覆盖了机器学习领域的大量重要话题,但作者也省略了个别话题,如图模型和流行的神经网络,这是出于简洁性的考虑,以及这些方法暂时缺少一些坚实的理论保证。

什么样的读者适合读

这本书针对的读者群体是机器学习、统计学及相关领域的学生和研究者。它可用作机器学习研究生和高年级本科生的教材,或者科研讨论会的参考书。

本书前三四章主要讲理论,为后续章节夯实理论基础。其他章各自独立,第 6 和 13 章除外,第六章介绍了和后面章节有关的一些概念,第 13 章和 第 12 章关联度很高。每一章的最后都有一系列练习题(附完整答案)。

本书希望读者熟悉线性代数、概率和算法分析。但是,为了进一步帮助到大家,这本书的扩展附录中还包括:对线性代数的概述、凸优化简介、概率论简介、对书中算法分析和讨论有用的一些集中不等式(Concentration inequality),以及信息论简介。

第二版的小目标

Mehryar Mohri 等作者的目标是为多个主题和领域提供统一的内容框架,而不是其它书籍采用的专题展示。这些专题书籍只描述某个特殊的视角或主题,例如贝叶斯视角或核方法主题。这本书有比较强的理论基础,证明与分析也会着重强调,因此它相比很多书籍都有较大的差别。

在第二版中,作者们更新了整本书。其主要改变体现在很多章节的写作风格、新的图表可视化、简化的内容与推导过程、对现有章节的一些补充,特别是第 6 章与第 17 章等一些新的章节。此外,作者们新添了完整的章节「模型选择」(第四章),这是非常重要的一个主题,但以前只简要讨论过。

对于第二版的最后,作者在附录中添加了很多新内容,包括线性代数和概率论等数学基础,也包括了信息论等机器学习基础。另外,作者为新章节提供了很多练习题与解决方案,读者也可以做做习题。

补充资料

这本书提供了很多材料,其中大多数都是纽约大学 Mehryar Mohri 的课程机器学习基础(Foundations of Machine Learning)提供的。这门课已经开展了 14 年,这本书也是该课程的内容概述。Mehryar Mohri 表示,正因为该课程学生的一些好建议,第二版才能最终出版。

课程主页:https://cs.nyu.edu/~mohri/ml18/

该课程主页上有额外的家庭作业、课件和项目等资料,配合书籍使用效果更佳。

成为VIP会员查看完整内容
0
57

该系列课程由DeepMind研究人员教授,与伦敦大学学院(UCL)合作创建,为学生提供现代强化学习的全面介绍。

本课程包括13个讲座,该系列涵盖了基础的强化学习和规划的序列决策问题,在进入更高级的主题和现代深度RL算法之前。它让学生详细了解各种主题,包括马尔可夫决策过程,基于样本的学习算法(如(双)Q-learning, SARSA),深度强化学习,等等。它还探索了更高级的主题,如非策略学习、多步骤更新和资格跟踪,以及在实现深度强化学习算法(如彩虹DQN)时的概念和实际考虑。

DeepMind研究科学家和工程师Hado van Hasselt, Diana Borsa和Matteo Hessel领导了一份针对硕士以上学生的关于RL和深度RL的13部分独立介绍。

第1讲: 强化学习的介绍

研究科学家Hado van Hasselt介绍了强化学习课程,并解释了强化学习与人工智能的关系。

第二讲: 探索与控制

研究科学家哈多·范·哈塞尔特(Hado van Hasselt)探讨了为什么学习主体同时平衡探索和利用已获得的知识很重要。

第三讲: MDPs与动态规划

研究科学家Diana Borsa解释了如何用动态规划解决MDPs,以提取准确的预测和良好的控制策略。

第4讲: 动态规划算法的理论基础

研究科学家Diana Borsa将动态规划算法作为收缩映射进行研究,观察它们何时以及如何收敛到正确的解。

第五讲:无模型预测

研究科学家Hado van Hasselt对无模型预测及其与蒙特卡罗和时域差分算法的关系进行了更深入的研究。

第6讲:无模型控制

研究科学家Hado van Hasselt研究了策略改进的预测算法,从而产生了可以从抽样经验中学习良好行为策略的算法。

第7讲:函数近似

研究科学家Hado van Hasselt解释了如何将深度学习与强化学习相结合,以实现“深度强化学习”。

第8讲: 规划与模型

研究工程师Matteo Hessel解释了如何学习和使用模型,包括像Dyna和蒙特卡罗树搜索(MCTS)这样的算法。

第9讲: 策略梯度和Actor-Critic方法

研究科学家Hado van Hasselt涵盖了可以直接学习策略的策略算法和结合价值预测以更有效学习的Actor-Critic算法。

第10讲: 近似动态规划

研究科学家Diana Borsa介绍了近似动态规划,探讨了我们可以从理论上说的近似算法的性能。

第11讲: 多步骤和间歇策略

研究科学家Hado van Hasselt讨论了多步和离线策略算法,包括各种减少方差的技术。

第12讲: 深度强化学习#1

研究工程师Matteo Hessel讨论了深度RL的实际考虑和算法,包括如何使用自区分(即Jax)实现这些。

第13讲: 深度强化学习#2

研究工程师Matteo Hessel介绍了作为辅助任务的一般值函数和GVFs,并解释了如何处理算法中的可扩展问题。

成为VIP会员查看完整内容
0
43

这本书的目的是全面概述在算法的数学分析中使用的主要技术。涵盖的材料从经典的数学主题,包括离散数学,基本的真实分析,和组合学,以及从经典的计算机科学主题,包括算法和数据结构。重点是“平均情况”或“概率”分析,但也涵盖了“最坏情况”或“复杂性”分析所需的基本数学工具。我们假设读者对计算机科学和实际分析的基本概念有一定的熟悉。简而言之,读者应该既能写程序,又能证明定理。否则,这本书是自成一体的。

这本书是用来作为算法分析高级课程的教科书。它也可以用于计算机科学家的离散数学课程,因为它涵盖了离散数学的基本技术,以及组合学和重要的离散结构的基本性质,在计算机科学学生熟悉的背景下。传统的做法是在这类课程中有更广泛的覆盖面,但许多教师可能会发现,这里的方法是一种有用的方式,可以让学生参与到大量的材料中。这本书也可以用来向数学和应用数学的学生介绍与算法和数据结构相关的计算机科学原理。

尽管有大量关于算法数学分析的文献,但该领域的学生和研究人员尚未直接获得广泛使用的方法和模型的基本信息。本书旨在解决这种情况,汇集了大量的材料,旨在为读者提供该领域的挑战的欣赏和学习正在开发的先进工具以应对这些挑战所需的背景知识。补充的论文从文献,这本书可以作为基础的介绍性研究生课程的算法分析,或作为一个参考或基础的研究人员在数学或计算机科学谁想要获得这个领域的文献自学。

成为VIP会员查看完整内容
0
80

从Facebook、万维网和互联网这样的社交网络,到我们身体细胞中蛋白质之间复杂的相互作用,我们不断面临着理解网络结构和发展的挑战。随机图的理论为这一理解提供了一个框架,在这本书中,作者对理解和应用这一理论的基本工具给出了细致的介绍。第一部分包括足够的材料,包括练习,一个学期的课程在高等本科或初级研究生水平。然后,读者为第二部分和第三部分更高级的主题做好了充分的准备。最后一部分提供了一个快速介绍所需的背景材料。所有那些对离散数学、计算机科学或应用概率及其应用感兴趣的人都会发现这是一个理想的入门课程。

https://www.cambridge.org/core/books/introduction-to-random-graphs/0F67A19795B731B0C97EAB5BB5748CF2#fndtn-information

成为VIP会员查看完整内容
0
54

【导读】佛罗里达大学电子与计算机工程系教授Sean Meyn撰写的新书稿《强化学习与控制系统》,重点讲述了与强化学习最相关的控制基础,以及基于这些基础的RL算法设计的大量工具。

Sean Meyn,佛罗里达大学电子与计算机工程系教授兼Robert C. Pittman杰出学者主席,认知与控制实验室主任,佛罗里达可持续能源研究所所长。Sean于1982年获得加利福尼亚大学洛杉矶分校数学学士学位,于1987年获得麦吉尔大学电子工程博士学位。他的学术研究兴趣包括决策和控制的理论与应用,随机过程和优化。他在这些主题上的研究获得了许多奖项,并且是IEEE会士。

http://www.meyn.ece.ufl.edu/

为了定义强化学习(RL),首先需要定义自动控制。例如,在你的日常生活中,可能包括你的汽车巡航控制,你的空调恒温器,冰箱和热水器,以及现代的衣物烘干机的决策规则。有收集数据的传感器,有收集数据以了解世界状态的计算机”(汽车以正确的速度行驶吗?毛巾还湿吗?),根据这些测量结果,由计算机驱动的算法会发出命令来调整需要调整的东西:油门、风扇速度、加热盘管电流,或者……更令人兴奋的例子包括太空火箭、人造器官和微型机器人来进行手术。RL的目标是真正自动的自动控制:没有任何物理学或生物学或医学知识,RL算法调整自己成为一个超级控制器: 最平稳的飞行进入太空,和最专业的微型外科医生! 这个梦想在大多数应用中肯定是遥不可及的,但最近的成功故事鼓舞了工业界、科学家和新一代学生。继2015年击败欧洲围棋冠军樊麾之后,DeepMind的AlphaGo再次刷新了世界纪录。不久之后的新闻是令人震惊的AlphaZero续集,它在“没有任何专家帮助的情况下”自学下国际象棋和围棋。这在现在看来已经不是什么新鲜事了,似乎每个月都会有新的突破。

今天的强化学习有两个同等重要的基础: 1. 最优控制:两个最著名的RL算法,TD-和q -学习,都是关于逼近最优控制的核心价值函数。2. 统计和信息理论。RL中的loration是本书的一大焦点,它强调了最优控制的几何性质,以及为什么创建可靠的学习算法并不困难。我们不会忽视第二个基础: 动机和成功的启发式将在不深入研究理论的情况下进行解释。读者将学到足够的知识,开始尝试自制的计算机代码,并拥有一个大的算法设计选择库。在完成这本书的一半之前,我希望学生能对为什么这些算法被期望是有用的以及为什么它们有时会失败有一个扎实的理解。

本书的重点是与强化学习最相关的控制基础,以及基于这些基础的RL算法设计的大量工具。

成为VIP会员查看完整内容
0
106

强化学习(RL)作为一种可行的、强大的技术,用于解决各种复杂的跨行业业务问题,包括在不确定性下的顺序优化决策。尽管RL被归类为机器学习(ML)的一个分支,但它的看待和处理方式往往与机器学习的其他分支(监督和非监督学习)非常不同。事实上,RL似乎掌握了开启人工智能前景的关键——人工智能可以根据观察到的信息的变化来调整决策,同时不断朝着最优结果前进。RL算法在无人驾驶汽车、机器人和策略游戏等备受瞩目的问题上的渗透,预示着未来RL算法的决策能力将远超人类。

本书重点研究支撑RL的基础理论。我们对这一理论的处理是基于本科水平的概率、优化、统计和线性代数。我们强调严谨但简单的数学符号和公式来发展理论,并鼓励你把方程写出来,而不是仅仅从书中阅读。偶尔,我们引用一些高等数学(如:随机微积分),但本书的大部分是基于容易理解的数学。特别是,两个基本的理论概念- Bellman最优方程和广义策略迭代-贯穿全书,因为它们构成了我们在RL中所做的几乎所有事情的基础,甚至在最先进的算法中。

本书第二部分用动态规划或强化学习算法解决的金融应用。作为随机控制问题的许多金融应用的一个基本特征是,模型MDP的回报是效用函数,以捕捉金融回报和风险之间的权衡。

成为VIP会员查看完整内容
0
66

这是一门关于在不确定情况下强化学习(RL)和顺序决策的入门课程,重点在于理解理论基础。我们研究如何使用动态规划方法,如价值和策略迭代,来解决具有已知模型的顺序决策问题,以及如何扩展这些方法,以解决模型未知的强化学习问题。其他主题包括(但不限于)RL中的函数近似、策略梯度方法、基于模型的RL以及平衡探索-利用权衡。本课程将以讲座和阅读古典及近期论文的方式传授给学生。因为重点是理解基础,你应该期望通过数学细节和证明。本课程的要求背景包括熟悉概率论和统计、微积分、线性代数、最优化和(有监督的)机器学习。

https://amfarahmand.github.io/IntroRL/

目录内容:

  • Introduction to Reinforcement Learning
  • Structural Properties of Markov Decision Processes (Part I)
  • Structural Properties of Markov Decision Processes (Part II)
  • Planning with a Known Model
  • Learning from a Stream of Data (Part I)
  • Learning from a Stream of Data (Part II)
  • Value Function Approximation (Part I)
  • Value Function Approximation (Part II)
  • Value Function Approximation (Part III)
  • Value Function Approximation (Part IV)
  • Policy Gradient Methods
  • Model-based RL
  • Presentations

强化学习入门笔记

这是多伦多大学计算机科学系于2021年春季教授的强化学习(RL)研究生课程介绍的讲义。本课程是入门性的,因为它不需要预先接触强化学习。然而,它不仅仅是算法的集合。相反,它试图在RL中经常遇到的许多重要思想和概念背后建立数学直觉。在这些讲义的过程中,我证明了很多基础的,或者有时不那么基础的,RL的结果。如果某个结果的证明过于复杂,我就证明一个简化的版本。

强化学习(RL)既指一类问题,也指解决这类问题的一组计算方法。RL问题是指如何采取行动,使某些长期绩效的概念得到最大化。RL问题,从它的定义来看,是关于一个实体的行为和交互,我们称之为代理,与其周围的环境,我们称之为环境。这是一个非常普遍的目标。有人可能会说,解决AI问题等同于解决RL问题。强化学习也指解决RL问题的一套计算方法。一个代理需要做什么样的计算才能确保它的行为能够带来良好的(甚至是最佳的)长期性能?实现这些的方法称为RL方法。历史上,在所有试图解决RL问题的计算方法中,只有一个子集被称为RL方法。例如Q-Learning这样的方法(我们将在本课程中学习)是一种很好的RL方法,但是进化计算的方法,如遗传算法,则不是。人们可以争辩说,进化计算方法没有太多的“学习”成分,或者它们不以个体生命的时间尺度行事,而是以世代的时间尺度行事。虽然这些是真正的区别,但这种划分方式有些武断。在本课堂讲稿中,我们将重点放在“RL社区”中经常学习的方法上。

成为VIP会员查看完整内容
0
35

https://deepmind.com/learning-resources/-introduction-reinforcement-learning-david-silver

这个经典的10部分课程,由强化学习(RL)的驱David Silver教授,虽然录制于2015年,但仍然是任何想要学习RL基础的同学所必需的资源。

强化学习已经成为现代机器学习中一项强大的技术,它允许系统通过反复试验进行学习。它已成功应用于许多领域,包括AlphaZero等系统,学会了掌握国际象棋、围棋和Shogi游戏。

这门课程由DeepMind首席科学家、伦敦大学学院教授、AlphaZero的共同创始人David Silver教授共同向学生们介绍RL中使用的主要方法和技术。学生们还会发现萨顿和巴托的经典著作《强化学习:入门》(Reinforcement Learning: an Introduction)是一个很有帮助的书籍。

经典书《强化学习导论》

强化学习教父 Richard Sutton 的经典教材《Reinforcement Learning:An Introduction》第二版公布啦。本书分为三大部分,共十七章,机器之心对其简介和框架做了扼要介绍,并附上了全书目录、课程代码与资料。下载《强化学习》PDF 请点击文末「阅读原文」。

原书籍地址:hhttp://incompleteideas.net/book/the-book.html

当我们思考学习的本质时,首先映入脑海的想法很可能是通过与环境的交互进行学习。当一个婴儿玩耍时,挥舞手臂,左顾右盼,旁边没有老师指导他,他与环境却有着一种直接的感知连接。通过这种连接,他懂得了因果关系,行动带来的结果,以及为了达成目标所需做的一切。人的一生中,这样的交互成了我们关于环境和自身知识的主要来源。不管学习驾驶汽车,还是进行一场交谈,实际上我们自始至终观察着环境如何回应我们的所为,并通过自身行为影响当下情景。交互式学习几乎是所有学习与智能理论的基石。

本书中我们提出了一种通过计算实现交互式学习的方法。我们没有直接理论化人类或动物的学习方式,而是探索理想的学习环境,评估不同学习方法的有效性。即,我们站在人工智能研究者或工程师的角度来解决问题。我们探讨了在解决科学或经济问题方面表现突出的机器的设计,通过数学分析或计算实验评估其设计。我们提出的这一方法称之为强化学习。相较于其他机器学习方法,它更专注于交互之中的目标导向性学习。

成为VIP会员查看完整内容
0
43

决策理论是现代人工智能和经济学的基础。本课程主要从统计学的角度,也从哲学的角度,为决策理论打下坚实的基础。本课程有两个目的:

  • 深入了解统计决策理论、实验设计的自动化方法,并将其与人类决策联系起来。
  • 通过开发算法和智能代理的实验,将该理论应用到强化学习和人工智能的实际问题中。

课程可分为两部分。

  • 第一部分,我们介绍了主观概率和效用的概念,以及如何用它们来表示和解决决策问题。然后讨论未知参数的估计和假设检验。最后,我们讨论了顺序抽样、顺序实验,以及更一般的顺序决策。

  • 第二部分是不确定性下的决策研究,特别是强化学习和专家咨询学习。首先,我们研究几个有代表性的统计模型。然后,我们给出了使用这些模型做出最优决策的算法的概述。最后,我们来看看学习如何根据专家的建议来行动的问题,这个领域最近在在线广告、游戏树搜索和优化方面有很多应用。

成为VIP会员查看完整内容
0
124
小贴士
相关VIP内容
专知会员服务
43+阅读 · 2021年12月19日
专知会员服务
57+阅读 · 2021年10月31日
专知会员服务
80+阅读 · 2021年8月30日
专知会员服务
54+阅读 · 2021年7月26日
专知会员服务
66+阅读 · 2021年3月30日
相关论文
Andreea Bobu,Marius Wiggert,Claire Tomlin,Anca D. Dragan
0+阅读 · 1月18日
Phillip Swazinna,Steffen Udluft,Daniel Hein,Thomas Runkler
0+阅读 · 1月14日
Ben Hambly,Renyuan Xu,Huining Yang
7+阅读 · 2021年12月8日
Exploration in Approximate Hyper-State Space for Meta Reinforcement Learning
Luisa Zintgraf,Leo Feng,Cong Lu,Maximilian Igl,Kristian Hartikainen,Katja Hofmann,Shimon Whiteson
8+阅读 · 2021年2月23日
The StarCraft Multi-Agent Challenge
Mikayel Samvelyan,Tabish Rashid,Christian Schroeder de Witt,Gregory Farquhar,Nantas Nardelli,Tim G. J. Rudner,Chia-Man Hung,Philip H. S. Torr,Jakob Foerster,Shimon Whiteson
3+阅读 · 2019年2月11日
Deep Reinforcement Learning for Multi-Agent Systems: A Review of Challenges, Solutions and Applications
Thanh Thi Nguyen,Ngoc Duy Nguyen,Saeid Nahavandi
3+阅读 · 2018年12月31日
Deep Reinforcement Learning: An Overview
Yuxi Li
12+阅读 · 2018年11月26日
Ermo Wei,Drew Wicke,David Freelan,Sean Luke
10+阅读 · 2018年4月25日
Motoya Ohnishi,Li Wang,Gennaro Notomista,Magnus Egerstedt
4+阅读 · 2018年1月29日
J. B. Heaton,N. G. Polson,J. H. Witte
4+阅读 · 2018年1月14日
Top
微信扫码咨询专知VIP会员