在这次演讲中,我们从数据压缩(和群不变性)的角度提供了对深度(卷积)网络的完全“白盒”解释。特别地,我们展示了现代的深层架构、线性(卷积)算子和非线性激活,甚至所有的参数都可以从最大化速率缩减(具有群不变性)的原则推导出来。网络的所有层、操作符和参数都是通过前向传播明确构建的,而不是通过后向传播学习。因此得到的网络的所有组件称为ReduNet,具有精确优化、几何和统计解释。这种原则性的方法也有一些令人惊讶的地方:它揭示了类可分离性的不变性和稀疏性之间的基本权衡;它揭示了深层网络和群体不变性的傅里叶变换之间的基本联系-频谱域的计算优势(为什么是尖突神经元?);这种方法还阐明了正向传播(优化)和反向传播(变异)的数学作用。特别地,这样获得的ReduNet 可以通过前向和后向(随机)传播进行微调,都是为了优化同一目标。这是与Berkeley的Yaodong Yu, Ryan Chan, Haozhi Qi ,现在谷歌研究中心的You Chong博士,以及哥伦比亚大学的John Wright教授共同完成的。

https://cmsa.fas.harvard.edu/wp-content/uploads/2021/04/Lecture_Ma-1.pdf

成为VIP会员查看完整内容
0
76

相关内容

机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

深度学习在实践中的显著成功,从理论的角度揭示了一些重大的惊喜。特别是,简单的梯度方法很容易找到非凸优化问题的接近最优的解决方案,尽管在没有任何明确的努力控制模型复杂性的情况下,这些方法提供了近乎完美的训练数据,这些方法显示了优秀的预测精度。我们推测这些现象背后有特定的原理: 过度参数化允许梯度方法找到插值解,这些方法隐含地施加正则化,过度参数化导致良性过拟合,也就是说,尽管过拟合训练数据,但仍能准确预测。在这篇文章中,我们调查了统计学习理论的最新进展,它提供了在更简单的设置中说明这些原则的例子。我们首先回顾经典的一致收敛结果以及为什么它们不能解释深度学习方法的行为方面。我们在简单的设置中给出隐式正则化的例子,在这些例子中,梯度方法可以得到完美匹配训练数据的最小范数函数。然后我们回顾显示良性过拟合的预测方法,关注二次损失的回归问题。对于这些方法,我们可以将预测规则分解为一个用于预测的简单组件和一个用于过拟合的尖状组件,但在良好的设置下,不会损害预测精度。我们特别关注神经网络的线性区域,其中网络可以用一个线性模型来近似。在这种情况下,我们证明了梯度流的成功,并考虑了双层网络的良性过拟合,给出了精确的渐近分析,精确地证明了过参数化的影响。最后,我们强调了在将这些见解扩展到现实的深度学习设置中出现的关键挑战。

https://www.zhuanzhi.ai/paper/324cdbb68665c1675a05bc147210d8c8

成为VIP会员查看完整内容
0
31

这些是我在2020年秋季在莫斯科物理与技术研究所(MIPT)和Yandex数据分析学院(YSDA)做的演讲笔记。这些笔记涵盖了初始化、损失曲面、泛化和神经切线核理论的一些方面。虽然许多其他的主题(如表达性,平均场理论,双下降现象)在当前版本中缺失,我们计划在未来的修订中添加它们。

https://www.zhuanzhi.ai/paper/2fc29465d202ea8e657db29311027617

成为VIP会员查看完整内容
0
25

在过去的十年里,神经网络在视觉、语音、语言理解、医学、机器人和游戏等领域取得了惊人的成果。人们原本以为,这种成功需要克服理论上存在的重大障碍。毕竟,深度学习优化是非凸的、高度非线性的、高维的,那么我们为什么能够训练这些网络呢?在许多情况下,它们拥有的参数远远多于记忆数据所需的参数,那么为什么它们能够很好地推广呢?尽管这些主题已经占据了机器学习研究领域的大部分注意力,但当涉及到更简单的模型时,神经网络领域的原则是先数据训练再说。显然,这招奏效了。

https://www.cs.toronto.edu/~rgrosse/courses/csc2541_2021/

结果,神经网络的实际成功已经超过了我们理解它们如何工作的能力。这门课是关于开发概念工具来理解当神经网络训练时会发生什么。其中一些思想早在几十年前就已经形成了(可能已经被社区的大部分人遗忘了),而另一些思想今天才刚刚开始被理解。我将试图传达我们最好的现代理解,尽管它可能不完整。

这门课从优化中汲取灵感,它不是一门优化课。一方面,优化的研究通常是指令性的,从优化问题的信息和明确定义的目标(如在特定规范下快速收敛)开始,并找出保证实现该目标的计划。对于现代神经网络来说,分析通常是描述性的: 采用在使用的程序,并找出它们(似乎)有效的原因。希望这种理解能让我们改进算法。

与优化研究的另一个区别是,目标不是简单地拟合一个有限的训练集,而是一般化。尽管神经网络有巨大的能力,但为什么它能泛化与训练的动态密切相关。因此,如果我们从优化中引入一个想法,我们不仅需要考虑它是否会更快地最小化成本函数,还需要考虑它是否以一种有利于泛化的方式实现。

这类应用不会为您提供在ImageNet上实现最先进性能的方法。它也不是那种为了证明定理而去证明定理的理论课。相反,我们的目的是为您提供概念性工具,以便您在任何特定情况下推断出影响训练的因素。

除了让你的网络更好地训练之外,学习神经网络训练动力学的另一个重要原因是,许多现代架构本身就足够强大,可以进行优化。这可能是因为我们在体系结构中明确地构建了优化,就像在MAML或深度均衡模型中那样。或者,我们可能只是在大量数据上训练一个灵活的架构,然后发现它具有惊人的推理能力,就像GPT3一样。不管怎样,如果网络架构本身在优化某些东西,那么外部训练过程就会与本课程中讨论的问题纠缠在一起,不管我们喜欢与否。为了有希望理解它提出的解决方案,我们需要理解问题。因此,本课程将以双层优化结束,利用课程中涵盖的所有内容。

目录内容:

  • 线性回归

我们将通过分析一个简单的模型开始这门课,梯度下降动力学可以被精确地确定:线性回归。尽管线性回归很简单,但它提供了对神经网络训练惊人的洞察力。我们将使用线性回归来理解两种神经网络训练现象: 为什么对输入进行归一化是一个好策略,以及增加维度可以减少过拟合。

  • 泰勒近似

线性化是我们理解非线性系统最重要的工具之一。我们将涵盖神经网络的一阶泰勒近似(梯度,方向导数)和二阶近似(Hessian)。我们将看到如何用雅可比向量乘积有效地计算它们。我们将使用Hessian诊断缓慢收敛和解释网络预测。

  • 度量

度量给出了流形上距离的一个局部概念。在许多情况下,两个神经网络之间的距离可以更有效地定义为它们所代表的函数之间的距离,而不是权重向量之间的距离。这就引出了一个重要的优化工具,叫做自然梯度。

  • 二阶优化

我们从几个角度来激励神经网络的二阶优化:最小化二阶泰勒近似、预处理、不变性和近端优化。我们将看到如何使用共轭梯度或克罗内克因子近似来近似二阶更新。

  • 自适应梯度法、归一化和权值衰减

我们看看已经成为神经网络训练的主要内容的三个算法特征。我们试图理解它们对动力学的影响,并找出构建深度学习系统的一些陷阱。

  • 无穷极限与过度参数化
  • Stochastic Optimization and Scaling
  • Bayesian Inference and Implicit Regularization
  • Dynamical Systems and Momentum
  • Differential Games
  • Bilevel Optimization
成为VIP会员查看完整内容
1
27

深度卷积网络的出现推动了视觉识别领域的新一波进步。这些学习到的表示大大优于手工设计的特征,在视觉任务上获得更高的性能,同时在数据集上有更好的泛化性。尽管这些模型看起来很普遍,但当它们所训练的数据与所要求操作的数据之间存在不匹配时,它们仍然会受到影响。领域适应提供了一种潜在的解决方案,允许我们将网络从源领域训练到新的目标领域。在这些领域中,标记数据是稀疏的或完全缺失的。然而,在端到端可学习表示出现之前,视觉域适应技术很大程度上局限于在固定的、手工设计的视觉特征上训练的分类器。在这篇论文中,我们展示了如何将视觉域适应与深度学习相结合,以直接学习能够适应域移动的表示,从而使模型能够泛化到源域之外。

在第2章中,我们将演示如何设计损失,以衡量两个领域的不同程度。我们表明,通过优化表示来最小化这些损失,我们可以学习从源到目标更好地泛化的表示。在第3章和第4章中,我们展示了我们可以训练模型来尝试测量域差异,而不是手工设计这些域损失。由于这些模型本身是端到端可学习的,我们可以通过它们反向传播来学习表示,从而最小化学习的差异。这在概念上与生成式对抗网络类似,我们还探索了两者之间的关系,以及我们如何在对抗环境中使用为GANs开发的技术。最后,在第5章和第6章中,我们证明了适应性不需要局限于深度网络的中间特征。对抗适应技术也可以用于训练模型,直接改变图像的像素,将它们转换成跨域的类似物。然后,这些转换后的图像可以用作标记的伪目标数据集,以学习更适合目标领域的监督模型。我们表明,这种技术是基于特征的适应性的补充,当两者结合时产生更好的性能。

https://www2.eecs.berkeley.edu/Pubs/TechRpts/2020/EECS-2020-69.html

成为VIP会员查看完整内容
0
25

地址:

https://book-wright-ma.github.io/

本书涵盖了用于高维数据分析的新的数学原理(统计和几何)、可扩展(凸和非凸)优化方法,以及重要的应用,如科学成像、宽带通信、人脸识别、3D视觉和深度网络。这本书将被用作数据科学、信号处理、优化和机器学习领域的研究生入门教科书。它已被用于课程EECS 290(伯克利)和ELEN 6886(哥伦比亚)。

在过去的二十年里,高维空间中低维结构的研究有了巨大的发展。在很大程度上,具有代表性的低维模型(如稀疏和低秩以及它们的变体和扩展)的几何和统计特性现在已经很好地理解了。在何种条件下,这些模型可以有效地和高效地从(最小采样量)数据中恢复,已经清楚地描述了。为了从高维数据中恢复低维模型,已经开发了许多高效和可扩展的算法。对这些算法的工作条件和计算复杂性也进行了详细的描述。这些新理论结果和算法已经彻底改变了科学和信号处理的实践数据, 并对传感、成像和信息处理产生了重要的影响。在科学成像、图像处理、计算机视觉、生物信息学、信息检索和机器学习等领域,我们已取得了显著的技术进步。正如我们将从本书中介绍的应用程序中看到的,其中一些发展似乎违背了传统智慧。

见证了这一历史性的进步,我们认为,现在是全面研究这一新知识体系并在统一的理论和计算框架下组织这些丰富成果的时候了。关于压缩感知和稀疏模型的数学原理,已有许多优秀的书籍。然而,本书的目标是通过真正有效的计算,弥合低维模型在高维数据分析中的原理和应用之间的差距:

本书结构

这本书的主体包括三个相互关联的部分: 原理、计算和应用(PCA)。本书还对相关的背景知识做了附录。

第一部分: 原理(2-7章)提出了稀疏、低秩和一般低维模型的基本性质和理论结果。它描述了在保证正确性或精度的情况下,恢复这种低维结构的逆问题变得易于处理并且能够有效地解决的条件。

第二部分: 计算(第8章和第9章)介绍了凸和非凸优化的方法,以开发用于恢复低维模型的实用算法。这些方法展示了如何系统地提高算法效率和降低整体计算复杂度,从而使生成的算法快速、可扩展到大尺寸和高维数据的强大思想。

第三部分: 应用(10到16章)演示了如何前面两部分的原理和计算方法可能价格不能提高解决各种现实问题和实践。这些应用还指导如何适当地定制和扩展本书中介绍的理想化的模型和算法,以包含关于应用的其他领域特定知识(先验或约束)。

最后的附录(A-E)在书的最后是为了使这本书很大程度上是独立的。

成为VIP会员查看完整内容
0
43

现代机器学习有两个明显的特点:它可以非常强大,也可以非常脆弱。前者不需要赘述。后者指的是现代机器学习算法的性能敏感地依赖于超参数的选择。这个演讲集中在机器学习的连续公式是“适定的”。我们将机器学习和相关的优化过程描述为表现良好的变分问题和类偏微分问题,并证明一些最流行的现代机器学习算法可以作为这些连续问题的离散化恢复。实验结果表明,该方法对不同的超参数选择具有更强的鲁棒性。我们还讨论了如何在这个框架下开发新的算法。

成为VIP会员查看完整内容
0
19

Andrew Gordon Wilson,纽约大学Courant数学科学研究所和数据科学中心助理教授,曾担任AAAI 2018、AISTATS 2018、UAI 2018、NeurIPS 2018、AISTATS 2019、ICML 2019、UAI 2019、NeurIPS 2019、AAAI 2020、ICLR 2020的区域主席/SPC以及ICML 2019、2020年EXO主席。 个人主页:https://cims.nyu.edu/~andrewgw/

贝叶斯深度学习与概率模型构建

贝叶斯方法的关键区别属性是间隔化,而不是使用单一的权重设置。贝叶斯间隔化尤其可以提高现代深度神经网络的准确性和标度,这些数据通常不充分指定,并可以代表许多引人注目但不同的解决方案。研究表明,深层的综合系统提供了一种有效的近似贝叶斯间隔化机制,并提出了一种相关的方法,在没有显著开销的情况下,通过在吸引 basins 内间隔化来进一步改进预测分布。我们还研究了神经网络权值的模糊分布所隐含的先验函数,从概率的角度解释了这些模型的泛化特性。从这个角度出发,我们解释了一些神秘而又不同于神经网络泛化的结果,比如用随机标签拟合图像的能力,并表明这些结果可以用高斯过程重新得到。我们还表明贝叶斯平均模型减轻了双下降,从而提高了灵活性,提高了单调性能。最后,我们提供了一个贝叶斯角度的调温校正预测分布。

视频地址:https://www.youtube.com/watch?v=E1qhGw8QxqY

成为VIP会员查看完整内容
0
67
小贴士
相关论文
Prafulla Dhariwal,Alex Nichol
0+阅读 · 5月13日
Agata Ciabattoni,Tim S. Lyon,Revantha Ramanayake,Alwen Tiu
0+阅读 · 5月6日
Asra Aslam,Ekram Khan,Mohammad Samar Ansari,M. M. Sufyan Beg
0+阅读 · 5月6日
Thomas M. Sutter,Imant Daunhawer,Julia E. Vogt
0+阅读 · 5月6日
Yuxin Fang,Shusheng Yang,Xinggang Wang,Yu Li,Chen Fang,Ying Shan,Bin Feng,Wenyu Liu
0+阅读 · 5月5日
Yuki Amano,Ayumi Igarashi,Yasushi Kawase,Kazuhisa Makino,Hirotaka Ono
0+阅读 · 5月5日
Andrew Brock,Soham De,Samuel L. Smith,Karen Simonyan
5+阅读 · 2月11日
Diverse Image-to-Image Translation via Disentangled Representations
Hsin-Ying Lee,Hung-Yu Tseng,Jia-Bin Huang,Maneesh Kumar Singh,Ming-Hsuan Yang
10+阅读 · 2018年8月2日
Tobias Ross,David Zimmerer,Anant Vemuri,Fabian Isensee,Manuel Wiesenfarth,Sebastian Bodenstedt,Fabian Both,Philip Kessler,Martin Wagner,Beat Müller,Hannes Kenngott,Stefanie Speidel,Annette Kopp-Schneider,Klaus Maier-Hein,Lena Maier-Hein
3+阅读 · 2018年1月31日
Top