本文研究了深度学习理论中一个基本的开放挑战: 为什么深度网络在过度参数化、非正则化和拟合训练数据为零误差的情况下仍能很好地泛化? 在论文的第一部分,我们将实证研究如何通过随机梯度下降训练深度网络隐式控制网络容量。随后,为了说明这如何导致更好的泛化,我们将推导基于数据的一致收敛的泛化边界,并改进参数计数的依赖性。由于其简单性和通用性,一致收敛实际上已经成为深度学习文献中使用最广泛的工具。鉴于它的流行,在这篇论文中,我们也将后退一步,确定一致收敛的基本极限,作为解释泛化的工具。特别地,我们将证明在一些过度参数化的设置的例子中,任何一致收敛界将只提供一个空洞的泛化界。考虑到这一点,在论文的最后一部分,我们将改变航向,并引入一种经验技术来估计使用未标记数据的泛化。我们的技术不依赖于任何基于一致收敛的复杂性概念,而且非常精确。我们将从理论上说明为什么我们的技术如此精确。最后,我们将讨论未来的工作如何探索在泛化边界中纳入分布假设的新方法(例如以未标记数据的形式),并探索其他工具来推导边界,可能是通过修改统一收敛或开发完全新的工具。

成为VIP会员查看完整内容
0
31

相关内容

机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

本博士论文包含了对统计因果模型领域的几个贡献。统计因果模型是嵌入因果假设的统计模型,允许对受外部操纵(干预)影响的随机系统的行为进行推断和推理。本文在因果效应估计、因果结构学习和分布鲁棒(非分布广义)预测方法等方面进行了深入的研究。我们提出了新的和一致的线性和非线性因果效应估计工具变量设置,采用数据依赖的均方预测误差正则化。我们提出的估计量显示,在某些情况下,均方误差比标准和最先进的估计量都有所改善。我们表明,最近对分布稳健预测方法的研究与计量经济学中经过充分研究的估计量有关。由此证明了一般k类估计具有分布鲁棒性。此外,我们提出了一个关于干预诱发分布的分布稳健性的一般框架。在这个框架中,我们推导了分布鲁棒预测方法可识别的充分条件,并给出了一些不可能的结果,证明了这些条件的必要性。提出了一种新的结构学习方法,适用于以有向树为因果图的加性噪声模型。我们证明了消失可辨识性设置中的一致性,并提供了一种方法来检验具有渐近家族误差控制的子结构假设,该方法在选择后仍然有效。最后,我们提出了学习非线性时间序列模型总结图的启发式思想。

成为VIP会员查看完整内容
0
24

在一个特定的数据集上训练一个强大的神经预测器执行一项任务的主流NLP范式取得了在各种应用上的成功(如:情感分类、基于广度预测的问答或机器翻译)。然而,它建立在数据分布是平稳的假设之上,即。在训练和测试时,数据都是从一个固定的分布中取样的。这种训练方式与我们人类在不断变化的信息流中学习和操作的方式不一致。此外,它不适合于真实世界的用例,在这些用例中,数据分布预计会在模型的生命周期中发生变化。

本文的第一个目标是描述这种偏移在自然语言处理环境中可能采取的不同形式,并提出基准和评价指标来衡量它对当前深度学习体系结构的影响。然后,我们继续采取步骤,以减轻分布转移对NLP模型的影响。为此,我们开发了基于分布鲁棒优化框架的参数化重构方法。从经验上讲,我们证明了这些方法产生了更鲁棒的模型,正如在选择的现实问题上所证明的那样。在本文的第三部分和最后一部分,我们探索了有效地适应现有模型的新领域或任务的方法。我们对这个主题的贡献来自于信息几何学的灵感,获得了一个新的梯度更新规则,缓解了适应过程中灾难性的遗忘问题。

我们从评估开始,因为分布转移特别难以描述和测量,特别是在自然语言方面。这部分是由于数据缺乏规范的度量结构。换句话说,如何有效地衡量两个句子之间的语义相似度还不清楚,因此没有直接的方法来衡量两个样本之间的差异,更不用说两种分布了。因此,作为解决分布偏移的第一步,我们提出了一个新的基准(第3章)和评估指标(第4章),分别评估域偏移和对抗扰动的鲁棒性。有了这些工具在手,我们开始构建鲁棒的模型,这些模型经过训练,即使在没有关于转移本质的明确信息的情况下,对分布转移也不那么敏感。这是通过利用训练分布中的数据多样性来实现的,以确保在训练数据(子群体)中存在的各种领域上的统一性能。具体来说,我们制定了一个分布鲁棒优化框架的参数化版本,该框架允许训练模型对子群体转移更为稳健(第5章和第6章)。最后,在静态环境中学习从根本上是次优的:我们不能期望我们的模型在每一个可能的未来环境中都表现良好,我们必须能够使它们适应我们遇到的任何新情况。因此,我们研究了一种机制,通过这种机制,我们能够根据新的证据微调训练模型,而不会忘记之前获得的知识(第7章)。

https://www.zhuanzhi.ai/paper/c5e7a9742d6a6313d63c5976499166dc

成为VIP会员查看完整内容
0
22

随着机器学习模型越来越多地用于做出涉及人类的重大决策,重要的是,这些模型不能因为种族和性别等受保护的属性而歧视。然而,模型持有人并不是受到歧视性模型伤害的首当其冲的人,因此模型持有人修复歧视性模型的自然动机很少。因此,如果其他实体也能发现或减轻这些模型中的不公平行为,将对社会有益。只需要对模型进行查询访问的黑盒方法非常适合这个目的,因为它们可以在不知道模型的全部细节的情况下执行。

在这篇论文中,我考虑了三种不同形式的不公平,并提出了解决它们的黑盒方法。第一个是代理使用,模型的某些组件是受保护属性的代理。其次是个体公平性的缺乏,这使模型不应该做出任意决定的直觉观念形式化。最后,模型的训练集可能不具有代表性,这可能导致模型对不同的保护组表现出不同程度的准确性。对于这些行为中的每一个,我提出使用一个或多个方法来帮助检测模型中的此类行为或确保缺乏此类行为。这些方法只需要对模型的黑箱访问,即使模型持有者不合作,它们也能有效地使用。我对这些方法的理论和实验分析证明了它们在这种情况下的有效性,表明它们是有用的技术工具,可以支持对歧视的有效回应。

成为VIP会员查看完整内容
0
23

在过去的几年中,深度学习和医学的交叉领域取得了快速的发展,特别是在医学图像的解译方面。在本文中,我描述了三个关键方向,为医学图像解释的深度学习技术的发展提出了挑战和机遇。首先,我讨论了专家级医学图像解译算法的发展,重点是用于低标记医学数据设置的迁移学习和自监督学习算法。其次,我讨论了高质量数据集的设计和管理以及它们在推进算法发展中的作用,重点是使用有限的手动注释的高质量标记。第三,我讨论了真实世界的评估医学图像算法的研究,系统地分析了在临床相关分布变化下的性能。总之,这篇论文总结了关键贡献和见解,在这些方向与关键应用跨医学专业。

https://searchworks.stanford.edu/view/13876519

成为VIP会员查看完整内容
0
41

在过去的十年里,神经网络在视觉、语音、语言理解、医学、机器人和游戏等领域取得了惊人的成果。人们原本以为,这种成功需要克服理论上存在的重大障碍。毕竟,深度学习优化是非凸的、高度非线性的、高维的,那么我们为什么能够训练这些网络呢?在许多情况下,它们拥有的参数远远多于记忆数据所需的参数,那么为什么它们能够很好地推广呢?尽管这些主题已经占据了机器学习研究领域的大部分注意力,但当涉及到更简单的模型时,神经网络领域的原则是先数据训练再说。显然,这招奏效了。

https://www.cs.toronto.edu/~rgrosse/courses/csc2541_2021/

结果,神经网络的实际成功已经超过了我们理解它们如何工作的能力。这门课是关于开发概念工具来理解当神经网络训练时会发生什么。其中一些思想早在几十年前就已经形成了(可能已经被社区的大部分人遗忘了),而另一些思想今天才刚刚开始被理解。我将试图传达我们最好的现代理解,尽管它可能不完整。

这门课从优化中汲取灵感,它不是一门优化课。一方面,优化的研究通常是指令性的,从优化问题的信息和明确定义的目标(如在特定规范下快速收敛)开始,并找出保证实现该目标的计划。对于现代神经网络来说,分析通常是描述性的: 采用在使用的程序,并找出它们(似乎)有效的原因。希望这种理解能让我们改进算法。

与优化研究的另一个区别是,目标不是简单地拟合一个有限的训练集,而是一般化。尽管神经网络有巨大的能力,但为什么它能泛化与训练的动态密切相关。因此,如果我们从优化中引入一个想法,我们不仅需要考虑它是否会更快地最小化成本函数,还需要考虑它是否以一种有利于泛化的方式实现。

这类应用不会为您提供在ImageNet上实现最先进性能的方法。它也不是那种为了证明定理而去证明定理的理论课。相反,我们的目的是为您提供概念性工具,以便您在任何特定情况下推断出影响训练的因素。

除了让你的网络更好地训练之外,学习神经网络训练动力学的另一个重要原因是,许多现代架构本身就足够强大,可以进行优化。这可能是因为我们在体系结构中明确地构建了优化,就像在MAML或深度均衡模型中那样。或者,我们可能只是在大量数据上训练一个灵活的架构,然后发现它具有惊人的推理能力,就像GPT3一样。不管怎样,如果网络架构本身在优化某些东西,那么外部训练过程就会与本课程中讨论的问题纠缠在一起,不管我们喜欢与否。为了有希望理解它提出的解决方案,我们需要理解问题。因此,本课程将以双层优化结束,利用课程中涵盖的所有内容。

目录内容:

  • 线性回归

我们将通过分析一个简单的模型开始这门课,梯度下降动力学可以被精确地确定:线性回归。尽管线性回归很简单,但它提供了对神经网络训练惊人的洞察力。我们将使用线性回归来理解两种神经网络训练现象: 为什么对输入进行归一化是一个好策略,以及增加维度可以减少过拟合。

  • 泰勒近似

线性化是我们理解非线性系统最重要的工具之一。我们将涵盖神经网络的一阶泰勒近似(梯度,方向导数)和二阶近似(Hessian)。我们将看到如何用雅可比向量乘积有效地计算它们。我们将使用Hessian诊断缓慢收敛和解释网络预测。

  • 度量

度量给出了流形上距离的一个局部概念。在许多情况下,两个神经网络之间的距离可以更有效地定义为它们所代表的函数之间的距离,而不是权重向量之间的距离。这就引出了一个重要的优化工具,叫做自然梯度。

  • 二阶优化

我们从几个角度来激励神经网络的二阶优化:最小化二阶泰勒近似、预处理、不变性和近端优化。我们将看到如何使用共轭梯度或克罗内克因子近似来近似二阶更新。

  • 自适应梯度法、归一化和权值衰减

我们看看已经成为神经网络训练的主要内容的三个算法特征。我们试图理解它们对动力学的影响,并找出构建深度学习系统的一些陷阱。

  • 无穷极限与过度参数化
  • Stochastic Optimization and Scaling
  • Bayesian Inference and Implicit Regularization
  • Dynamical Systems and Momentum
  • Differential Games
  • Bilevel Optimization
成为VIP会员查看完整内容
1
37

基于最近关于非凸优化算法在训练深度神经网络和数据分析中的其他优化问题中的应用,我们对非凸优化算法全局性能保证的最新理论成果进行了综述。我们从经典的论证开始,证明一般的非凸问题不可能在合理的时间内得到有效的解决。然后,我们给出了一个可以通过尽可能多地利用问题的结构来寻找全局最优解的问题列表。处理非凸性的另一种方法是将寻找全局最小值的目标放宽到寻找一个平稳点或局部最小值。对于这种设置,我们首先给出确定性一阶方法收敛速度的已知结果,然后是最优随机和随机梯度格式的一般理论分析,以及随机一阶方法的概述。然后,我们讨论了相当一般的一类非凸问题,如α-弱拟凸函数的极小化和满足Polyak- Lojasiewicz条件的函数,这些函数仍然可以得到一阶方法的理论收敛保证。然后我们考虑非凸优化问题的高阶、零阶/无导数方法及其收敛速度。

成为VIP会员查看完整内容
0
53

论文题目

一致收敛可能无法解释深度学习中的泛化现象,Uniform convergence may be unable to explain generalization in deep learning

论文摘要

我们对基于一致收敛的泛化界的能力表示怀疑,以提供一个完整的图像,说明为什么过度参数化的深网络泛化良好。虽然众所周知,许多现有的边界是数值大的,通过各种实验,我们首先揭示了这些界限的另一个关键和更关注的方面:在实践中,这些界限可以{EM增加与数据集的大小。在我们的观察结果的指导下,我们给出了随机梯度下降(SGD)训练的超参数线性分类器和神经网络的例子,在这些例子中,即使我们尽可能充分地考虑隐式正则化{\em},一致收敛也无法“解释泛化”。更准确地说,即使我们只考虑SGD输出的一组测试误差小于某个小ϵ的分类器,对这组分类器应用(双边)一致收敛也会得到一个大于1ϵ的泛化保证,因此几乎是空的

论文亮点

本文提出了一个反对使用基于一致收敛的泛化界来解释超参数深网络泛化良好的理由。它们是通过破坏最紧的(算法,分布相关的)一致收敛界来实现的。

论文结构

  • 作者首先回顾了基于标准一致收敛的边界是如何工作的
  • 经典的基于一致收敛的方法通过测试误差来约束测试误差<=训练误差+O(某些复杂项)/SRT(训练集大小),由于过度的超调,在过参数化设置中失败。
  • 在现代方法中,我们试图找到在实际数据上训练时隐式正则化的权值,然后对它们(更简单的,范数有界的函数类)应用一致收敛来产生更好的界

论文作者

Vaishnavh Nagarajan, J. Zico Kolte。

成为VIP会员查看完整内容
0
9

题目: Uniform convergence may be unable to explain generalization in deep learning

摘要: 为了解释过参数化深度网络的泛化行为,最近的工作发展了各种各样的深度学习泛化界,所有这些都基于一致收敛的基本学习理论技术。虽然众所周知,许多现有的边界是数值大的,通过大量的实验,我们揭示了这些边界的一个更关注的方面:在实践中,这些界限可以{EM EM增加与训练数据集的大小。在我们的观察结果的指导下,我们给出了超参数线性分类器和梯度下降(GD)训练的神经网络的例子,其中一致收敛证明不能解释泛化“”——即使我们尽可能充分考虑GD{尽可能的\em}的隐式偏差。更准确地说,即使我们只考虑GD输出的一组分类器,它们的测试误差在我们的设置中小于一些小的值,我们也表明,对这组分类器应用(双边)一致收敛只会产生大于的空泛化保证。通过这些发现,我们对基于一致收敛的泛化界的能力提出了质疑,以提供一个完整的图片说明为什么过度参数化的深层网络泛化良好。

作者简介: Vaishnavh Nagarajan,卡内基梅隆大学(CMU)计算机科学系五年级的博士生。他的兴趣在于机器学习和人工智能的算法和基础方面。目前,他正在研究如何在有监督和无监督的学习环境中从理论上理解深度学习中的泛化。在过去,他从事过更传统的学习理论、多智能体系统和强化学习。个人主页:http://www.cs.cmu.edu/~vaishnan/home/index.html

J. Zico Kolter,卡内基梅隆大学计算机科学系助理教授,研究集中在可持续性和能源领域的计算方法上,集中在这些领域机器学习、优化和控制中出现的核心挑战上。个人主页:https://www.csd.cs.cmu.edu/people/faculty/zico-kolter

成为VIP会员查看完整内容
0
3

简介: 为了解释超参数化深度网络令人惊讶的良好泛化行为,最近的工作开发了各种泛化边界学习方法,这些方法都是基于统一收敛的基础学习理论技术。尽管众所周知,存在多个边界的数值很大,但通过大量实验,我们发现了这些边界的更多相关方面:在实践中,这些边界会随着训练数据集的大小而增加。然后,以我们的观察为指导,我们提供了由梯度下降(GD)训练的过参数化线性分类器和神经网络的示例,其中即使证明了最大程度地考虑了GD的隐性偏差,也证明均匀收敛不能“解释泛化”。更准确地说,即使我们仅考虑GD输出的分类器集,其测试误差小于我们的设置中的一些误差,我们仍然表明,在这组分类器上应用(双面)均匀收敛只会产生虚无泛化保证大于1−ε。通过这些发现,我们对基于统一收敛的泛化边界的威力提出了疑问,以提供为什么超参数化的深层网络能够很好地泛化的完整情况。

本文提出了本质上是负面的结果,表明许多现有的(基于规范的)深度学习算法的性能边界无法达到他们要求的结果。作者进一步说,当其他研究者继续依靠双边一致收敛的机制时,他们将无法达到自己宣称的结果。虽然本文没有解决(也不假装解决)深层神经网络中的泛化问题,但是将该算法“钉死在十字架上”(培根原话“An Instance of the Fingerpost”),指出机器学习领域应该关注另一个不同的地方。

作者介绍: Vaishnavh Nagarajan,卡内基梅隆大学(CMU)计算机科学系五年级的博士生。他的兴趣在于机器学习和人工智能的算法和基础方面。目前,他正在研究如何在有监督和无监督的学习环境中从理论上理解深度学习中的泛化。在过去,他从事过更传统的学习理论、多智能体系统和强化学习。

Zico Kolter,卡内基梅隆大学计算机科学学院计算机科学系的副教授。 除了在CMU的全职工作之外,还任博世AI中心(BCAI)的AI研究首席科学家,工作重点是机器学习,优化和控制。 具体来说,就是使深度学习算法更安全,更可靠,更易于解释。个人主页:https://www.csd.cs.cmu.edu/people/faculty/zico-kolter

成为VIP会员查看完整内容
0
11
小贴士
相关VIP内容
相关论文
Maxim Samarin,Vitali Nesterov,Mario Wieser,Aleksander Wieczorek,Sonali Parbhoo,Volker Roth
0+阅读 · 11月25日
Hrayr Harutyunyan,Maxim Raginsky,Greg Ver Steeg,Aram Galstyan
12+阅读 · 10月4日
Ziwei Ji,Nathan Srebro,Matus Telgarsky
4+阅读 · 7月1日
Daniel A. Roberts,Sho Yaida,Boris Hanin
19+阅读 · 6月18日
Tengyu Ma
7+阅读 · 3月24日
Tianle Cai,Shengjie Luo,Keyulu Xu,Di He,Tie-Yan Liu,Liwei Wang
11+阅读 · 2月16日
Yingtian Zou,Jiashi Feng
7+阅读 · 2019年4月19日
Accelerated Methods for Deep Reinforcement Learning
Adam Stooke,Pieter Abbeel
5+阅读 · 2019年1月10日
Residual Policy Learning
Tom Silver,Kelsey Allen,Josh Tenenbaum,Leslie Kaelbling
3+阅读 · 2018年12月15日
Siyu He,Yin Li,Yu Feng,Shirley Ho,Siamak Ravanbakhsh,Wei Chen,Barnabás Póczos
3+阅读 · 2018年11月15日
Top