我们为什么在这里?我们大多数人来到这里的原因很简单:我们想解决人工智能问题。那么,人工智能和这本书的书名有什么关系呢?人工智能的现代定义之一是对理性代理的研究和设计[RN09]。从这个意义上说,我们将一个系统描述为智能的,当它最大化某些预期的性能概念时。机器学习的子领域处理的是问题和算法的子集,其中代理可以获得经验(通常以某种形式的数据),可以利用这些经验来改进性能的概念[MRT12]。大多数情况下,性能是由代理人在新的和看不见的情况下如何行动来衡量的,这些情况不构成其训练经验的一部分。例如,可以训练一名代理人将英文翻译成法文,其训练经验包括大量翻译的联合国文件。然而,在评估时,它可能会在与它所见过的文件不同的联合国新文件上进行测试。很自然地,代理在它所看到的训练经验和它所评估的新情况下的表现之间存在着差距。代理泛化的能力是通过性能上的差距有多小来衡量的。

希望前面的段落已经解释了在机器学习的背景下,以及在更大的AI背景下,什么是泛化。那么,标题中还保留着哪些“分布外”词呢?如前所述,泛化是指减少一个agent在已知训练情境下的表现与同一agent在未知测试情境下的表现之间的差距。然而,有许多不同类型的未知。统计学习通常处理的一类泛化是分布的:当从训练示例生成的数据与测试示例生成的数据无法区分时。根据定义,非分布内的泛化问题称为分布外泛化问题,这是本书的主题。

这项工作的目标很简单。我们想要回顾,分布外泛化的知识。因此,这项工作的很大一部分将致力于理解(有时是微妙的)不同方法和假设之间的差异和相似性,通常以一种孤立的方式呈现。重点将放在与人工智能或现代大规模机器学习应用等想法上。此外,我们将特别注意研究不同方法的缺点,以及下一步可能是重要的。

  • 在第二章中,我们首先讨论如何量化分布外泛化。通过几个例子,我们研究了分布外泛化与处理不同分布外任务的几种常用方法之间的关系。本文将特别强调这些方法背后的假设,并说明这些方法何时有效,何时无效。

  • 在第三章中,我们将关注一个特定的分布外任务类。在这些预测任务中,就像在许多实际问题中一样,在分布之外泛化的困难在于找出数据中的哪些相关性是假的和不可靠的,以及哪些相关性代表感兴趣的现象。

  • 在第四章中,我们讨论了不同应用领域在实践中出现的分布外任务的类型,以及这些领域在过去是如何处理这些问题的。

  • 在第五章中,我们为分布外泛化和人工智能背景下的新研究领域奠定了基础。在本章中,我们将关注在探索或强化学习环境中与世界交互的agent,以及它们如何从分布外泛化中获益。

成为VIP会员查看完整内容
0
32

相关内容

纽约大学(New York University),成立于 1831 年,是全美最大的私立大学之一,也是美国唯一一座坐落于纽约心脏地带的名校。所设课程压力不大,但要求甚高。而34名诺贝尔奖得主更是使纽约大学光芒四射,享誉世界。纽约大学较为偏重人文艺术及社会科学,研究生院享有很高的声誉。属下的帝势艺术学院是全美最佳的美术学院之一;斯特恩商学院由于得到地灵人杰之助,是蜚声世界的著名商学院,聚集着世界最顶尖的人才。

强化学习定义了仅通过行动和观察来学习做出好的决策的代理所面临的问题。为了成为有效的问题解决器,这些代理必须能有效地探索广阔的世界,从延迟的反馈中分配信用,并归纳出新的经验,同时要利用有限的数据、计算资源和感知带宽。抽象对所有这些努力都是必要的。通过抽象,代理可以形成其环境的简洁模型,以支持一个理性的、自适应的决策者所需要的许多实践。在这篇论文中,我提出了强化学习中的抽象理论。首先,我提出了执行抽象过程的函数的三个要求:它们应该1)保持近似最优行为的表示,2) 有效地被学习和构造,3) 更低的规划或学习时间。然后,我提出了一套新的算法和分析,阐明了代理如何根据这些需求学习抽象。总的来说,这些结果提供了一条通向发现和使用抽象的部分路径,将有效强化学习的复杂性降到最低。

强化学习问题如下。RL代理通过以下两个离散步骤的无限重复与环境进行交互:

  1. 代理收到观察和奖励。
  2. 代理从这种交互中学习并执行一个动作。 这个过程如图1.2所示。在这种互动过程中,agent的目标是做出决策,使其获得的长期报酬最大化。

论文余下组织如下: 第1部分。在第2章中,我提供了关于RL(2.1节)以及状态抽象(2.2节)和动作抽象(2.3节)的必要背景知识。

第2部分。下一部分将专注于状态抽象。我提出了新的算法和三个紧密相连的分析集,每一个目标是发现满足引入的需求的状态抽象。在第3章中,我开发了一个形式化的框架来推理状态抽象,以保持近似最优的行为。这个框架由定理3.1总结,它强调了值保持状态抽象的四个充分条件。然后,在第4章中,我将这一分析扩展到终身RL设置,在终身RL设置中,代理必须不断地与不同的任务交互并解决不同的任务。本章的主要观点是介绍了用于终身学习设置的PAC状态抽象,以及澄清如何有效计算它们的结果。定理4.4说明了保证这些抽象保持良好行为的意义,定理4.5说明了有多少以前已解决的任务足以计算PAC状态抽象。我着重介绍了模拟实验的结果,这些结果说明了所介绍的状态抽象类型在加速学习和计划方面的效用。最后,第五章介绍了信息论工具对状态抽象的作用。我提出了状态抽象和率失真理论[283,43]和信息瓶颈方法[318]之间的紧密联系,并利用这种联系设计新的算法,以高效地构建状态抽象,优雅地在压缩和良好行为表示之间进行权衡。我以各种方式扩展了这个算法框架,说明了它发现状态抽象的能力,这些状态抽象提供了良好行为的样本高效学习。

第3部分。然后我转向行动抽象。在第6章中,我展示了Jinnai等人的分析[144],研究了寻找尽可能快地做出计划的抽象动作的问题——主要结果表明,这个问题通常是NP困难的(在适当简化的假设下),甚至在多项式时间内很难近似。然后,在第7章中,我解决了在规划中伴随高层次行为构建预测模型的问题。这样的模型使代理能够估计在给定状态下执行行为的结果。在本章中,我将介绍并分析一个用于这些高级行为的新模型,并证明在温和的假设下,这个简单的替代仍然是有用的。我提供的经验证据表明,新的预测模型可以作为其更复杂的对等物的适当替代者。最后,在第8章中,我探讨了抽象行动改善探索过程的潜力。我描述了Jinnai等人开发的一种算法[145],该算法基于构建可以轻松到达环境所有部分的抽象行动的概念,并证明该算法可以加速对基准任务的探索。

第4部分。最后,我转向状态动作抽象的联合过程。在第9章中,我介绍了一个将状态和动作抽象结合在一起的简单机制。使用这个方案,然后我证明了哪些状态和动作抽象的组合可以在任何有限的MDP中保持良好的行为策略的表示,定理9.1总结了这一点。接下来,我将研究这些联合抽象的反复应用,作为构建分层抽象的机制。在对层次结构和底层状态动作抽象的温和假设下,我证明了这些层次结构也可以保持全局近最优行为策略的表示,如定理9.3所述。然后,我将在第十章中总结我的思考和今后的方向。

总的来说,这些结果阐明了强化学习的抽象理论。图1.4展示了本文的可视化概述。

成为VIP会员查看完整内容
0
39

人类具有从经验中不断学习的非凡能力。我们不仅可以把以前学过的知识和技能应用到新的情况中,我们还可以把这些作为以后学习的基础。人工智能(AI)的宏伟目标之一是构建一种人工的“持续学习”代理,通过对越来越复杂的知识和技能的自主增量开发,从自身经验构建对世界的复杂理解。然而,尽管有早期的推测和开创性的工作,很少有研究和努力致力于解决这一愿景。当前的人工智能系统在面对新数据或环境下时会受到很大的影响,这些数据或环境甚至与它们所接受的训练稍有不同。此外,学习过程通常局限于狭窄、孤立的任务中的固定数据集,这很难导致更复杂、更自主的智能行为的出现。从本质上说,持续学习和适应能力,虽然通常被认为是每一个智能主体的基本支柱,但基本上被排除在人工智能的主要研究焦点之外。在这篇论文中,我们根据机器学习研究的最新进展和人工智能的深层架构来研究这些思想的应用。我们提出了一个全面和统一的框架,以持续学习,新的指标,基准和算法,以及提供大量的实验评估在不同的监督,非监督和强化学习任务。

http://amsdottorato.unibo.it/9073/

成为VIP会员查看完整内容
0
13

有几个主要的主题贯穿全书。这些主题主要是对两个不同类别的比较。当你阅读的时候,很重要的一点是你要明白书的不同部分适合什么类别,不适合什么类别。

统计与因果。即使有无限多的数据,我们有时也无法计算一些因果量。相比之下,很多统计是关于在有限样本中解决不确定性的。当给定无限数据时,没有不确定性。然而,关联,一个统计概念,不是因果关系。在因果推理方面还有更多的工作要做,即使在开始使用无限数据之后也是如此。这是激发因果推理的主要区别。我们在这一章已经做了这样的区分,并将在整本书中继续做这样的区分。

识别与评估。因果效应的识别是因果推论所独有的。这是一个有待解决的问题,即使我们有无限的数据。然而,因果推理也与传统统计和机器学习共享估计。我们将主要从识别因果效应(在第2章中,4和6)之前估计因果效应(第7章)。例外是2.5节和节4.6.2,我们进行完整的例子估计给你的整个过程是什么样子。

介入与观察。如果我们能进行干预/实验,因果效应的识别就相对容易了。这很简单,因为我们可以采取我们想要衡量因果效应的行动,并简单地衡量我们采取行动后的效果。观测数据变得更加复杂,因为数据中几乎总是引入混杂。

假设。将会有一个很大的焦点是我们用什么假设来得到我们得到的结果。每个假设都有自己的框来帮助人们注意到它。清晰的假设应该使我们很容易看到对给定的因果分析或因果模型的批评。他们希望,清晰地提出假设将导致对因果关系的更清晰的讨论。

https://www.bradyneal.com/causal-inference-course

成为VIP会员查看完整内容
0
113

这本书没有假设读者在统计方面有任何预先训练,这本书的第一部分描述了基本的统计原理,从一个观点,使他们的缺点直观和容易理解。重点是用语言和图形来描述概念。第二部分描述了解决第一部分所涵盖问题的现代方法。使用来自实际研究的数据,包括许多例子来说明传统程序的实际问题,以及更多的现代方法如何能对统计研究的许多领域中得出的结论产生实质性的影响。

这本书的第二版包括了自从第一版出现以来发生的一些进展和见解。包括与中位数相关的新结果,回归,关联的测量,比较依赖组的策略,处理异方差的方法,以及效应量的测量。

成为VIP会员查看完整内容
0
34

这本书的第五版继续讲述如何运用概率论来深入了解真实日常的统计问题。这本书是为工程、计算机科学、数学、统计和自然科学的学生编写的统计学、概率论和统计的入门课程。因此,它假定有基本的微积分知识。

第一章介绍了统计学的简要介绍,介绍了它的两个分支:描述统计学和推理统计学,以及这门学科的简短历史和一些人,他们的早期工作为今天的工作提供了基础。

第二章将讨论描述性统计的主题。本章展示了描述数据集的图表和表格,以及用于总结数据集某些关键属性的数量。

为了能够从数据中得出结论,有必要了解数据的来源。例如,人们常常假定这些数据是来自某个总体的“随机样本”。为了确切地理解这意味着什么,以及它的结果对于将样本数据的性质与整个总体的性质联系起来有什么意义,有必要对概率有一些了解,这就是第三章的主题。本章介绍了概率实验的思想,解释了事件概率的概念,并给出了概率的公理。

我们在第四章继续研究概率,它处理随机变量和期望的重要概念,在第五章,考虑一些在应用中经常发生的特殊类型的随机变量。给出了二项式、泊松、超几何、正规、均匀、伽玛、卡方、t和F等随机变量。

成为VIP会员查看完整内容
2
101

在过去的20年里,基因组学、神经科学、经济学和互联网服务等许多领域产生了越来越多的大数据集,这些数据集有高维、大样本,或者两者兼之。这为我们从数据中检索和推断有价值的信息提供了前所未有的机会。同时,也对统计方法和计算算法提出了新的挑战。一方面,我们希望建立一个合理的模型来捕获所需的结构,并提高统计估计和推断的质量。另一方面,面对越来越大的数据集,计算可能成为一个巨大的障碍,以得出有意义的结论。这篇论文站在两个主题的交叉点,提出了统计方法来捕获所需的数据结构,并寻求可扩展的方法来优化计算非常大的数据集。我们提出了一种可扩展的灵活框架,用于利用lasso/elastic-net解决大规模稀疏回归问题; 提出了一种可伸缩的框架,用于在存在多个相关响应和其他细微差别(如缺失值)的情况下解决稀疏缩减秩回归问题。分别在snpnet和multiSnpnet R包中以PLINK 2.0格式为基因组数据开发了优化的实现。这两种方法在超大和超高维的英国生物样本库研究中得到了验证,与传统的预测建模方法相比有了显著的改进。此外,我们考虑了一类不同的高维问题,异质因果效应的估计。与监督学习的设置不同,这类问题的主要挑战在于,在历史数据中,我们从未观察到硬币的另一面,因此我们无法获得处理之间真正差异的基本真相。我们提出适应非参数统计学习方法,特别是梯度增强和多元自适应回归样条,以估计处理效果的预测器可用。实现被打包在一个R包causalLearning中。

成为VIP会员查看完整内容
0
53

决策理论是现代人工智能和经济学的基础。本课程主要从统计学的角度,也从哲学的角度,为决策理论打下坚实的基础。本课程有两个目的:

  • 深入了解统计决策理论、实验设计的自动化方法,并将其与人类决策联系起来。
  • 通过开发算法和智能代理的实验,将该理论应用到强化学习和人工智能的实际问题中。

课程可分为两部分。

  • 第一部分,我们介绍了主观概率和效用的概念,以及如何用它们来表示和解决决策问题。然后讨论未知参数的估计和假设检验。最后,我们讨论了顺序抽样、顺序实验,以及更一般的顺序决策。

  • 第二部分是不确定性下的决策研究,特别是强化学习和专家咨询学习。首先,我们研究几个有代表性的统计模型。然后,我们给出了使用这些模型做出最优决策的算法的概述。最后,我们来看看学习如何根据专家的建议来行动的问题,这个领域最近在在线广告、游戏树搜索和优化方面有很多应用。

成为VIP会员查看完整内容
0
93

统计学习理论是一个新兴的研究领域,它是概率论、统计学、计算机科学和最优化的交叉领域,研究基于训练数据进行预测的计算机算法的性能。以下主题将包括:统计决策理论基础;集中不平等;监督学习和非监督学习;经验风险最小化;complexity-regularized估计;学习算法的泛化界VC维与复杂性;极大极小下界;在线学习和优化。利用一般理论,我们将讨论统计学习理论在信号处理、信息论和自适应控制方面的一些应用。

成为VIP会员查看完整内容
0
79

【导读】纽约大学的Andrew Gordon Wilson和Pavel Izmailov在论文中从概率角度的泛化性对贝叶斯深度学习进行了探讨。贝叶斯方法的关键区别在于它是基于边缘化,而不是基于最优化的,这为它带来了许多优势。

贝叶斯方法的关键区别是边缘化,而不是使用单一的权重设置。贝叶斯边缘化可以特别提高现代深度神经网络的准确性和校准,这是典型的不由数据完全确定,可以代表许多令人信服的但不同的解决方案。我们证明了深度集成为近似贝叶斯边缘化提供了一种有效的机制,并提出了一种相关的方法,通过在没有显著开销的情况下,在吸引域边缘化来进一步改进预测分布。我们还研究了神经网络权值的模糊分布所隐含的先验函数,从概率的角度解释了这些模型的泛化性质。从这个角度出发,我们解释了那些对于神经网络泛化来说神秘而独特的结果,比如用随机标签来拟合图像的能力,并证明了这些结果可以用高斯过程来重现。最后,我们提供了校正预测分布的贝叶斯观点。

成为VIP会员查看完整内容
0
53
小贴士
相关论文
Tobias Grafke,Sebastian Scholtes,Alfred Wagner,Maria G. Westdickenberg
0+阅读 · 4月8日
Derek Hoiem,Tanmay Gupta,Zhizhong Li,Michal M. Shlapentokh-Rothman
0+阅读 · 4月5日
Yu Cheng,Mo Yu,Xiaoxiao Guo,Bowen Zhou
11+阅读 · 2019年1月26日
Residual Policy Learning
Tom Silver,Kelsey Allen,Josh Tenenbaum,Leslie Kaelbling
3+阅读 · 2018年12月15日
Parsimonious Bayesian deep networks
Mingyuan Zhou
3+阅读 · 2018年10月17日
Towards Understanding Regularization in Batch Normalization
Ping Luo,Xinjiang Wang,Wenqi Shao,Zhanglin Peng
4+阅读 · 2018年9月27日
Yong Wang,Xiao-Ming Wu,Qimai Li,Jiatao Gu,Wangmeng Xiang,Lei Zhang,Victor O. K. Li
8+阅读 · 2018年7月8日
Isabelle Augenstein,Sebastian Ruder,Anders Søgaard
3+阅读 · 2018年4月9日
Ben Usman,Kate Saenko,Brian Kulis
3+阅读 · 2018年1月30日
Top