强化学习定义了仅通过行动和观察来学习做出好的决策的代理所面临的问题。为了成为有效的问题解决器,这些代理必须能有效地探索广阔的世界,从延迟的反馈中分配信用,并归纳出新的经验,同时要利用有限的数据、计算资源和感知带宽。抽象对所有这些努力都是必要的。通过抽象,代理可以形成其环境的简洁模型,以支持一个理性的、自适应的决策者所需要的许多实践。在这篇论文中,我提出了强化学习中的抽象理论。首先,我提出了执行抽象过程的函数的三个要求:它们应该1)保持近似最优行为的表示,2) 有效地被学习和构造,3) 更低的规划或学习时间。然后,我提出了一套新的算法和分析,阐明了代理如何根据这些需求学习抽象。总的来说,这些结果提供了一条通向发现和使用抽象的部分路径,将有效强化学习的复杂性降到最低。

强化学习问题如下。RL代理通过以下两个离散步骤的无限重复与环境进行交互:

  1. 代理收到观察和奖励。
  2. 代理从这种交互中学习并执行一个动作。 这个过程如图1.2所示。在这种互动过程中,agent的目标是做出决策,使其获得的长期报酬最大化。

论文余下组织如下: 第1部分。在第2章中,我提供了关于RL(2.1节)以及状态抽象(2.2节)和动作抽象(2.3节)的必要背景知识。

第2部分。下一部分将专注于状态抽象。我提出了新的算法和三个紧密相连的分析集,每一个目标是发现满足引入的需求的状态抽象。在第3章中,我开发了一个形式化的框架来推理状态抽象,以保持近似最优的行为。这个框架由定理3.1总结,它强调了值保持状态抽象的四个充分条件。然后,在第4章中,我将这一分析扩展到终身RL设置,在终身RL设置中,代理必须不断地与不同的任务交互并解决不同的任务。本章的主要观点是介绍了用于终身学习设置的PAC状态抽象,以及澄清如何有效计算它们的结果。定理4.4说明了保证这些抽象保持良好行为的意义,定理4.5说明了有多少以前已解决的任务足以计算PAC状态抽象。我着重介绍了模拟实验的结果,这些结果说明了所介绍的状态抽象类型在加速学习和计划方面的效用。最后,第五章介绍了信息论工具对状态抽象的作用。我提出了状态抽象和率失真理论[283,43]和信息瓶颈方法[318]之间的紧密联系,并利用这种联系设计新的算法,以高效地构建状态抽象,优雅地在压缩和良好行为表示之间进行权衡。我以各种方式扩展了这个算法框架,说明了它发现状态抽象的能力,这些状态抽象提供了良好行为的样本高效学习。

第3部分。然后我转向行动抽象。在第6章中,我展示了Jinnai等人的分析[144],研究了寻找尽可能快地做出计划的抽象动作的问题——主要结果表明,这个问题通常是NP困难的(在适当简化的假设下),甚至在多项式时间内很难近似。然后,在第7章中,我解决了在规划中伴随高层次行为构建预测模型的问题。这样的模型使代理能够估计在给定状态下执行行为的结果。在本章中,我将介绍并分析一个用于这些高级行为的新模型,并证明在温和的假设下,这个简单的替代仍然是有用的。我提供的经验证据表明,新的预测模型可以作为其更复杂的对等物的适当替代者。最后,在第8章中,我探讨了抽象行动改善探索过程的潜力。我描述了Jinnai等人开发的一种算法[145],该算法基于构建可以轻松到达环境所有部分的抽象行动的概念,并证明该算法可以加速对基准任务的探索。

第4部分。最后,我转向状态动作抽象的联合过程。在第9章中,我介绍了一个将状态和动作抽象结合在一起的简单机制。使用这个方案,然后我证明了哪些状态和动作抽象的组合可以在任何有限的MDP中保持良好的行为策略的表示,定理9.1总结了这一点。接下来,我将研究这些联合抽象的反复应用,作为构建分层抽象的机制。在对层次结构和底层状态动作抽象的温和假设下,我证明了这些层次结构也可以保持全局近最优行为策略的表示,如定理9.3所述。然后,我将在第十章中总结我的思考和今后的方向。

总的来说,这些结果阐明了强化学习的抽象理论。图1.4展示了本文的可视化概述。

成为VIP会员查看完整内容
0
40

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。

本课程关注控制理论和强化学习的理论介绍,侧重于连续状态空间以及物理世界和机器人技术的应用。我们强调计算效率的算法和可证明的界。特别关注RL中非随机控制和遗憾最小化的新方法。我们将与该领域的经典方法论进行比较和对比。

本课程的练习和项目将需要用python编写代码。

这门课程对所有学生开放,但要求有很强的数学背景。

https://sites.google.com/view/cos59x-cct/home

深度学习的先驱、图灵奖获得者Yann Lecun教授有一种非常简洁明了地抓住问题症结的气质。2020年2月左右,他在巴巴多斯研讨会上说,

“控制=梯度强化学习”。

强化学习和控制理论的关键区别在于它们所操作的空间。强化学习的范围通常位于离散状态空间(如围棋、国际象棋),而控制理论通常处理涉及物理和连续空间(如机器人)的问题。物理学和结构环境的知识使我们能够利用差分信息。

后者允许我们使用强大的数学优化和凸松弛技术来设计高效的算法。这是自适应非随机控制理论的主题,也是本课程的主题。

成为VIP会员查看完整内容
0
30

强化学习(RL)作为一种可行且强大的技术,正逐渐成为一种解决各种复杂业务问题的技术,这些问题涉及不确定条件下的连续优化决策。尽管RL被归类为机器学习(ML)的一个分支,但它往往与ML(监督学习和非监督学习)的其他分支有很大的不同。事实上,RL似乎掌握着开启人工智能前景的钥匙——机器可以根据观察到的异常信息调整决策,同时不断转向最佳结果。它在无人驾驶汽车、机器人和策略游戏等备受关注的问题上的应用,预示着未来RL算法将拥有远超人类的决策能力。但是当谈到RL的学习应用时,人们似乎不愿意直接进入。我们经常听到甚至技术人员声称RL涉及“高等数学”和“复杂工程”,所以似乎有一个心理障碍进入。虽然现实世界的RL算法和实现在克服众所周知的最后业务问题时确实变得相当复杂,但是RL的基础实际上不需要繁重的技术机器就可以学会。本书的核心目的是通过在理解的深度和保持基本技术内容之间找到平衡来揭开RL的神秘面纱。因此,我们将学习:

  • 您将了解简单而强大的马尔可夫决策过程(MDPs)理论——不确定情况下的序列最优决策框架。您将坚定地理解Bellman方程的力量,它是所有动态规划和所有RL算法的核心。

  • 您将掌握动态规划(DP)算法,这是一类(用人工智能的语言)规划算法。您将学习策略迭代、值迭代、逆向归纳、近似动态规划和广义策略迭代的重要概念,它是所有DP和所有RL算法的核心。

  • 您将获得各种强化学习(RL)算法的坚实的理解,从基本算法如SARSA和Q-Learning,并进入学习在实践中工作得很好的几个重要的算法,包括梯度时间差分,深度Q网络,最小二乘策略迭代,策略梯度,蒙特卡罗树搜索。您将了解如何利用bootstrapping、off-policy学习和基于深度神经网络的函数逼近在这些算法中获得优势。您还将学习如何平衡探索和利用Multi-Armed Bandits技术,如置信上限,汤普森采样,梯度盗匪和信息状态空间算法。

  • 您将练习大量的模型和算法的“从头开始”Python实现。贯穿全书,我们强调了良好的Python编程实践,包括接口设计、类型注释、函数式编程和基于继承的多态(始终确保编程原则反映数学原则)。从这本书中获得的更大的收获是一种将应用数学概念与软件设计范例相结合的罕见的(高需求的)能力。

成为VIP会员查看完整内容
0
65

这是我2004年,2006年和2009年在斯坦福大学教授的概率理论博士课程的讲义。本课程的目标是为斯坦福大学数学和统计学系的博士生做概率论研究做准备。更广泛地说,文本的目标是帮助读者掌握概率论的数学基础和在这一领域中证明定理最常用的技术。然后将此应用于随机过程的最基本类的严格研究。

为此,我们在第一章中介绍了测度与积分理论中的相关元素,即事件的概率空间与格-代数、作为可测函数的随机变量、它们的期望作为相应的勒贝格积分,以及独立性的重要概念。

利用这些元素,我们在第二章中研究了随机变量收敛的各种概念,并推导了大数的弱定律和强定律。

第三章讨论了弱收敛的理论、分布函数和特征函数的相关概念以及中心极限定理和泊松近似的两个重要特例。

基于第一章的框架,我们在第四章讨论了条件期望的定义、存在性和性质,以及相关的规则条件概率分布。

第五章讨论了过滤、信息在时间上的级数的数学概念以及相应的停止时间。关于后者的结果是作为一组称为鞅的随机过程研究的副产品得到的。讨论了鞅表示、极大不等式、收敛定理及其各种应用。为了更清晰和更容易的表述,我们在这里集中讨论离散时间的设置来推迟与第九章相对应的连续时间。

第六章简要介绍了马尔可夫链的理论,概率论的核心是一个庞大的主题,许多教科书都致力于此。我们通过研究一些有趣的特殊情况来说明这类过程的一些有趣的数学性质。

在第七章中,我们简要介绍遍历理论,将注意力限制在离散时间随机过程的应用上。我们定义了平稳过程和遍历过程的概念,推导了Birkhoff和Kingman的经典定理,并强调了该理论的许多有用应用中的少数几个。

第八章建立了以连续时间参数为指标的右连续随机过程的研究框架,引入了高斯过程族,并严格构造了布朗运动为连续样本路径和零均值平稳独立增量的高斯过程。

第九章将我们先前对鞅和强马尔可夫过程的处理扩展到连续时间的设定,强调了右连续滤波的作用。然后在布朗运动和马尔可夫跳跃过程的背景下说明了这类过程的数学结构。

在此基础上,在第十章中,我们利用不变性原理重新构造了布朗运动作为某些重新标定的随机游动的极限。进一步研究了其样本路径的丰富性质以及布朗运动在clt和迭代对数定律(简称lil)中的许多应用。

https://statweb.stanford.edu/~adembo/stat-310b/lnotes.pdf

成为VIP会员查看完整内容
0
57

与经典的监督学习不同,强化学习(RL)从根本上是交互式的: 一个自主的智能体必须学习如何在一个未知的、不确定的、可能是对抗的环境中表现,通过与环境的积极互动来收集有用的反馈,以提高其序列决策能力。RL代理还将干预环境: 代理做出决策,进而影响环境的进一步演化。

由于它的普遍性——大多数机器学习问题可以看作是特殊情况——RL很难。由于没有直接的监督,RL的一个主要挑战是如何探索未知的环境并有效地收集有用的反馈。在最近的RL成功案例中(如视频游戏中的超人表现[Mnih et al., 2015]),我们注意到它们大多依赖于随机探索策略,如“贪婪”。同样的,策略梯度法如REINFORCE [Williams, 1992],通过向动作空间注入随机性进行探索,希望随机性能导致良好的动作序列,从而获得高总回报。理论RL文献已经开发出了更复杂的算法来进行有效的探索(例如,[Azar等人,2017]),然而,这些接近最优算法的样本复杂度必须根据底层系统的关键参数(如状态和动作空间的维数)呈指数级增长。这种指数依赖性阻碍了这些理论上优雅的RL算法在大规模应用中的直接应用。总之,如果没有进一步的假设,无论在实践上还是在理论上,RL都是困难的。

在本文中,我们试图通过引入额外的假设和信息源来获得对RL问题的支持。本文的第一个贡献是通过模仿学习来提高RL样本的复杂度。通过利用专家的示范,模仿学习极大地简化了探索的任务。在本论文中,我们考虑了两种设置:一种是交互式模仿学习设置,即在训练期间专家可以进行查询;另一种是仅通过观察进行模仿学习的设置,在这种设置中,我们只有一组由对专家状态的观察组成的演示(没有记录专家行为)。我们在理论和实践中研究如何模仿专家,以减少样本的复杂性相比,纯RL方法。第二个贡献来自于无模型的强化学习。具体来说,我们通过构建一个从策略评估到无后悔在线学习的总体约简来研究策略评估,无后悔在线学习是一个活跃的研究领域,具有良好的理论基础。这样的约减创造了一个新的算法族,可以在生成过程的非常弱的假设下证明正确的策略评估。在此基础上,对行动空间和参数空间两种无模型勘探策略进行了理论和实证研究。这项工作的第三个贡献来自基于模型的强化学习。我们提供了基于模型的RL方法和一般无模型的RL方法之间的第一个指数样本复度分离。然后,我们提供了基于PAC模型的RL算法,可以同时实现对许多有趣的MDPs的采样效率,如表列MDPs、因子MDPs、Lipschitz连续MDPs、低秩MDPs和线性二次控制。通过将最优控制、模型学习和模仿学习结合在一起,我们还提供了一个更实用的基于模型的RL框架,称为双重策略迭代(DPI)。此外,我们给出了一个通用的收敛分析,将现有的近似策略迭代理论推广到DPI。DPI对最近成功的实用RL算法如ExIt和AlphaGo Zero进行了概括和提供了第一个理论基础[Anthony et al., 2017, Silver et al., 2017],并为统一基于模型的RL方法和无模型的RL方法提供了一种理论健全和实践高效的方法。

https://www.ri.cmu.edu/publications/towards-generalization-and-efficiency-in-reinforcement-learning/

成为VIP会员查看完整内容
0
44

机器人研究的一个长期目标是创建能够从零开始自动学习复杂控制策略的算法。将这种算法应用到机器人上的挑战之一是表示的选择。强化学习(RL)算法已经成功地应用于许多不同的机器人任务中,如带有机器人手臂的cup中的Ball-in-a-Cup任务和各种机器人世界杯机器人足球启发的领域。然而,RL算法仍然存在训练时间长、所需训练数据量大的问题。为状态空间、行动空间和策略选择合适的表示可以大大减少所需的训练时间和所需的训练数据。

本文主要研究机器人的深度强化学习。具体来说,状态空间、动作空间和策略表示的选择如何减少机器人学习任务的训练时间和样本复杂度。特别集中注意两个主要领域: 1)通过张量状态-动作空间表示 2)多状态表示的辅助任务学习

第一个领域探索了在环境变化中改进机器人策略迁移的方法。学习策略的成本可能很高,但是如果策略可以在类似的环境中传输和重用,那么训练成本可以平摊。迁移学习是一个被广泛研究的领域,涉及多种技术。在这篇论文中,我们着重设计一个易于传输的表示。我们的方法将状态空间和动作空间映射为多维张量,设计成当环境中机器人和其他对象的数量变化时保持固定维数。我们还提出了全卷积Q-Network (FCQN)策略表示,这是一种特殊的网络架构,与张量表示相结合,允许跨环境大小进行零距离传输。我们在模拟的单代理和多代理任务上演示了这种方法,灵感来自于RoboCup Small - Size League (SSL)和Atari Breakout的修改版本。我们还表明,在真实世界的传感器数据和机器人中使用这样的表示和模拟训练策略是可能的。

第二个领域考察了一个机器人深度RL状态表示的优势如何弥补另一个机器人深度RL状态表示的劣势。例如,我们经常想要利用机器人可用的传感器来学习任务,其中包括像摄像机这样的高维传感器。最近的Deep RL算法可以通过图像进行学习,但是数据的数量对于真实的机器人来说是难以接受的。或者,可以使用任务完成所需的最小集创建状态。这样做的好处是:1)减少策略参数的数量,2)删除不相关的信息。然而,提取这些特征通常会在工程、额外硬件、校准和实验室之外的脆弱性方面有很大的成本。我们在仿真和现实世界的多个机器人平台和任务上演示了这一点。我们证明它在模拟的RoboCup小型联赛(SSL)机器人上工作。我们还演示了这样的技术允许在真实的硬件上从零开始学习,通过机器人手臂执行一个球在一个杯子的任务。

https://www.ri.cmu.edu/publications/robot-deep-reinforcement-learning-tensor-state-action-spaces-and-auxiliary-task-learning-with-multiple-state-representations/

成为VIP会员查看完整内容
0
46

随着开放科学和开放资源的双重运动将越来越多的科学过程带入数字领域,科学本身的元科学研究(包括数据科学和统计)出现了新的机会。未来的科学很可能看到机器在处理、组织甚至创造科学知识方面发挥积极作用。为了使这成为可能,必须进行大量的工程努力来将科学工件转化为有用的计算资源,并且必须在科学理论、模型、实验和数据的组织方面取得概念上的进展。本论文的目标是将数据科学的两大主要产物——统计模型和数据分析——数字化和系统化。使用来自代数的工具,特别是分类逻辑,在统计和逻辑的模型之间进行了精确的类比,使统计模型在逻辑意义上被视为理论的模型。统计理论,作为代数结构,服从机器表示,并配备了形式化不同统计方法之间的关系的形态。从数学转向工程,设计和实现了一个软件系统,用于以Python或R程序的形式创建数据分析的机器表示。表示的目的是捕获数据分析的语义,独立于实现它们的编程语言和库。

https://arxiv.org/abs/2006.08945

成为VIP会员查看完整内容
0
24

决策理论是现代人工智能和经济学的基础。本课程主要从统计学的角度,也从哲学的角度,为决策理论打下坚实的基础。本课程有两个目的:

  • 深入了解统计决策理论、实验设计的自动化方法,并将其与人类决策联系起来。
  • 通过开发算法和智能代理的实验,将该理论应用到强化学习和人工智能的实际问题中。

课程可分为两部分。

  • 第一部分,我们介绍了主观概率和效用的概念,以及如何用它们来表示和解决决策问题。然后讨论未知参数的估计和假设检验。最后,我们讨论了顺序抽样、顺序实验,以及更一般的顺序决策。

  • 第二部分是不确定性下的决策研究,特别是强化学习和专家咨询学习。首先,我们研究几个有代表性的统计模型。然后,我们给出了使用这些模型做出最优决策的算法的概述。最后,我们来看看学习如何根据专家的建议来行动的问题,这个领域最近在在线广告、游戏树搜索和优化方面有很多应用。

成为VIP会员查看完整内容
0
97

强化学习(RL)是一种流行的处理顺序决策任务的范式,其中agent只有有限的环境反馈。尽管在过去的三十年里取得了许多进步,但是在许多领域的学习仍然需要大量的与环境的交互,这在现实的场景中是非常昂贵的。为了解决这个问题,迁移学习被应用于强化学习,这样在一个任务中获得的经验可以在开始学习下一个更困难的任务时得到利用。最近,有几项研究探索了如何将任务(或数据样本本身)排序到课程中,以便学习一个可能很难从头学起的问题。在本文中,我们提出了一个课程学习的强化学习框架,并利用它来调查和分类现有的课程学习方法的假设、能力和目标。最后,我们使用我们的框架来发现开放的问题,并为未来的RL课程学习研究提出方向。

成为VIP会员查看完整内容
0
52

摘要:

本文将优化描述为一个过程。在许多实际应用中,环境是如此复杂,以致于无法制定一个全面的理论模型,并使用经典算法理论和数学优化。采取一种稳健的方法是必要的,也是有益的,方法是应用一种不断学习的优化方法,在观察到问题的更多方面时从经验中学习。这种将优化视为一个过程的观点在各个领域都很突出,并在建模和系统方面取得了一些惊人的成功,现在它们已经成为我们日常生活的一部分。

作者介绍:

Elad Hazan是普林斯顿大学计算机科学教授。他于2015年从Technion毕业,当时他是该校运筹学副教授。他的研究重点是机器学习和优化的基本问题的算法设计和分析。他的贡献包括合作开发用于训练学习机器的AdaGrad算法,以及第一个用于凸优化的次线性时间算法。他曾(两次)获得2012年IBM Goldberg最佳论文奖,以表彰他对机器学习的次线性时间算法的贡献。2008年,他还获得了欧洲研究理事会(European Research Council)的一笔拨款、玛丽•居里(Marie Curie)奖学金和谷歌研究奖(两次)。他是计算学习协会的指导委员会成员,并担任COLT 2015的项目主席。

https://www.cs.princeton.edu/~ehazan/

成为VIP会员查看完整内容
0
122
小贴士
相关VIP内容
专知会员服务
30+阅读 · 2020年12月24日
专知会员服务
65+阅读 · 2020年12月22日
专知会员服务
57+阅读 · 2020年12月3日
专知会员服务
44+阅读 · 2020年9月28日
专知会员服务
46+阅读 · 2020年8月27日
专知会员服务
52+阅读 · 2020年3月22日
专知会员服务
122+阅读 · 2020年2月3日
相关论文
Chao-Han Huck Yang,I-Te Danny Hung,Yi Ouyang,Pin-Yu Chen
0+阅读 · 2月18日
Prithviraj Ammanabrolu,Wesley Cheung,William Broniec,Mark O. Riedl
6+阅读 · 2020年12月30日
Sahil Verma,John Dickerson,Keegan Hines
11+阅读 · 2020年10月20日
Accelerated Methods for Deep Reinforcement Learning
Adam Stooke,Pieter Abbeel
4+阅读 · 2019年1月10日
PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation
Perttu Hämäläinen,Amin Babadi,Xiaoxiao Ma,Jaakko Lehtinen
3+阅读 · 2018年12月18日
Brett Daley,Christopher Amato
3+阅读 · 2018年10月23日
Hierarchical Deep Multiagent Reinforcement Learning
Hongyao Tang,Jianye Hao,Tangjie Lv,Yingfeng Chen,Zongzhang Zhang,Hangtian Jia,Chunxu Ren,Yan Zheng,Changjie Fan,Li Wang
4+阅读 · 2018年9月25日
Tongtao Zhang,Heng Ji
13+阅读 · 2018年4月21日
Tommaso Soru,Stefano Ruberto,Diego Moussallem,Edgard Marx,Diego Esteves,Axel-Cyrille Ngonga Ngomo
7+阅读 · 2018年3月21日
Ming Jin,Andreas Damianou,Pieter Abbeel,Costas Spanos
3+阅读 · 2017年5月4日
Top