深度神经网络泛化的神秘能力被认为源于隐式正则化,一种基于梯度的优化的趋势,以拟合训练数据与低复杂度的预测器。“形式化这种直觉的一个主要挑战是,我们缺乏对复杂性的度量,既要量化,又要捕捉承认泛化的数据的本质(图像、音频、文本等)。考虑到这一挑战,我将介绍最近的隐式正则化在矩阵分解(等价于线性神经网络)和张量分解(等价于某种类型的非线性神经网络)中的分析。通过动态描述,我将建立隐式的低秩正则化,不同于任何类型的范数最小化,与先前的信念相反。然后,由于张量秩捕获非线性神经网络的隐式正则化,我将建议将其作为复杂度的度量,并表明在拟合标准数据集时它保持极低的水平。这就产生了张量秩解释神经网络的隐式正则化和将其转化为泛化的真实数据的特性的可能性。

http://www.ipam.ucla.edu/abstract/?tid=16593&pcode=TMWS1

目录:

1 深度学习隐式正则化 Implicit Regularization in Deep Learning

2 矩阵分解 Matrix Factorization

3 CP张量分解 CP Tensor Factorization

4 张量秩 Tensor Rank as Measure of Complexity

5 结论 Conclusion

成为VIP会员查看完整内容
0
33

相关内容

机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

本课程深入介绍机器学习中的数学理论、算法和核方法的应用。该课程是为研究生开设的,由Julien Mairal和Jean-Philippe Vert于2021年教授,是巴黎高等师范学院“数学、计算机视觉和机器学习”硕士课程的一部分。

http://members.cbio.mines-paristech.fr/~jvert/svn/kernelcourse/course/2021mva/index.html

机器学习在现实世界应用中的许多问题可以被形式化为经典的统计问题,例如模式识别、回归或降维,但要注意的是数据通常不是数字的向量。例如,计算生物学中的蛋白质序列和结构、web挖掘中的文本和XML文档、图像处理中的分割图像、语音识别和金融中的时间序列,都具有包含统计问题相关信息但难以编码为有限维向量表示的特定结构。

内核方法是一类非常适合于此类问题的算法。实际上,它们将最初为向量设计的许多统计方法的适用性扩展到了几乎任何类型的数据,而不需要对数据进行明确的向量化。向非向量扩展的代价是需要在对象之间定义一个所谓的正定核函数,形式上相当于数据的隐式向量化。近年来,各种对象内核设计的“艺术”取得了重要的进展,产生了许多最先进的算法,并在许多领域获得了成功的应用。

本课程的目的是介绍核方法的数学基础,以及到目前为止在核设计中出现的主要方法。我们将首先介绍正定核的理论和重建核希尔伯特空间,这将允许我们介绍几种核方法,包括核主成分分析和支持向量机。然后我们再回到定义内核的问题。我们将介绍关于Mercer核和半群核的主要结果,以及字符串和图的核的一些例子,从计算生物学的应用,文本处理和图像分析。最后,我们将讨论一些活跃的研究课题,如大规模核方法和深度核机器。

成为VIP会员查看完整内容
0
30

在过去的十年里,神经网络在视觉、语音、语言理解、医学、机器人和游戏等领域取得了惊人的成果。人们原本以为,这种成功需要克服理论上存在的重大障碍。毕竟,深度学习优化是非凸的、高度非线性的、高维的,那么我们为什么能够训练这些网络呢?在许多情况下,它们拥有的参数远远多于记忆数据所需的参数,那么为什么它们能够很好地推广呢?尽管这些主题已经占据了机器学习研究领域的大部分注意力,但当涉及到更简单的模型时,神经网络领域的原则是先数据训练再说。显然,这招奏效了。

https://www.cs.toronto.edu/~rgrosse/courses/csc2541_2021/

结果,神经网络的实际成功已经超过了我们理解它们如何工作的能力。这门课是关于开发概念工具来理解当神经网络训练时会发生什么。其中一些思想早在几十年前就已经形成了(可能已经被社区的大部分人遗忘了),而另一些思想今天才刚刚开始被理解。我将试图传达我们最好的现代理解,尽管它可能不完整。

这门课从优化中汲取灵感,它不是一门优化课。一方面,优化的研究通常是指令性的,从优化问题的信息和明确定义的目标(如在特定规范下快速收敛)开始,并找出保证实现该目标的计划。对于现代神经网络来说,分析通常是描述性的: 采用在使用的程序,并找出它们(似乎)有效的原因。希望这种理解能让我们改进算法。

与优化研究的另一个区别是,目标不是简单地拟合一个有限的训练集,而是一般化。尽管神经网络有巨大的能力,但为什么它能泛化与训练的动态密切相关。因此,如果我们从优化中引入一个想法,我们不仅需要考虑它是否会更快地最小化成本函数,还需要考虑它是否以一种有利于泛化的方式实现。

这类应用不会为您提供在ImageNet上实现最先进性能的方法。它也不是那种为了证明定理而去证明定理的理论课。相反,我们的目的是为您提供概念性工具,以便您在任何特定情况下推断出影响训练的因素。

除了让你的网络更好地训练之外,学习神经网络训练动力学的另一个重要原因是,许多现代架构本身就足够强大,可以进行优化。这可能是因为我们在体系结构中明确地构建了优化,就像在MAML或深度均衡模型中那样。或者,我们可能只是在大量数据上训练一个灵活的架构,然后发现它具有惊人的推理能力,就像GPT3一样。不管怎样,如果网络架构本身在优化某些东西,那么外部训练过程就会与本课程中讨论的问题纠缠在一起,不管我们喜欢与否。为了有希望理解它提出的解决方案,我们需要理解问题。因此,本课程将以双层优化结束,利用课程中涵盖的所有内容。

目录内容:

  • 线性回归

我们将通过分析一个简单的模型开始这门课,梯度下降动力学可以被精确地确定:线性回归。尽管线性回归很简单,但它提供了对神经网络训练惊人的洞察力。我们将使用线性回归来理解两种神经网络训练现象: 为什么对输入进行归一化是一个好策略,以及增加维度可以减少过拟合。

  • 泰勒近似

线性化是我们理解非线性系统最重要的工具之一。我们将涵盖神经网络的一阶泰勒近似(梯度,方向导数)和二阶近似(Hessian)。我们将看到如何用雅可比向量乘积有效地计算它们。我们将使用Hessian诊断缓慢收敛和解释网络预测。

  • 度量

度量给出了流形上距离的一个局部概念。在许多情况下,两个神经网络之间的距离可以更有效地定义为它们所代表的函数之间的距离,而不是权重向量之间的距离。这就引出了一个重要的优化工具,叫做自然梯度。

  • 二阶优化

我们从几个角度来激励神经网络的二阶优化:最小化二阶泰勒近似、预处理、不变性和近端优化。我们将看到如何使用共轭梯度或克罗内克因子近似来近似二阶更新。

  • 自适应梯度法、归一化和权值衰减

我们看看已经成为神经网络训练的主要内容的三个算法特征。我们试图理解它们对动力学的影响,并找出构建深度学习系统的一些陷阱。

  • 无穷极限与过度参数化
  • Stochastic Optimization and Scaling
  • Bayesian Inference and Implicit Regularization
  • Dynamical Systems and Momentum
  • Differential Games
  • Bilevel Optimization
成为VIP会员查看完整内容
1
26

深度学习在语音识别、计算机视觉等许多领域得到了广泛的应用和突破。其中涉及的深度神经网络结构和计算问题已经在机器学习中得到了很好的研究。但对于理解深度学习模型在网络架构中的建模、逼近或泛化能力,缺乏理论基础。在这里,我们对具有卷积结构的深度卷积神经网络(CNNs)很感兴趣。convolutional architecture使得deep CNNs和fully connected deep neural networks有本质的区别,而30年前发展起来的关于fully connected networks的经典理论并不适用。本讲座介绍了深度神经网络的数学理论与整流线性单元(ReLU)激活函数。特别是,我们首次证明了深度CNN的普遍性,即当神经网络的深度足够大时,深度CNN可以用来逼近任意的连续函数,达到任意的精度。我们还给出了显式的逼近率,并表明对于一般函数,深度神经网络的逼近能力至少与全连接多层神经网络一样好,对于径向函数更好。我们的定量估计严格按照待计算的自由参数的数量给出,验证了深度网络神经网络处理大数据的效率。

成为VIP会员查看完整内容
0
22

Google 研究科学家Mathieu Blondel在PSL大学的“机器学习的对偶性”课程材料。主题包括共轭函数,平滑技术,Fenchel对偶性,Fenchel-Young损失和块对偶坐标上升算法。

http://mblondel.org/teaching/duality-2020.pdf

成为VIP会员查看完整内容
0
24

人类的视觉系统证明,用极少的样本就可以学习新的类别;人类不需要一百万个样本就能学会区分野外的有毒蘑菇和可食用蘑菇。可以说,这种能力来自于看到了数百万个其他类别,并将学习到的表现形式转化为新的类别。本报告将正式介绍机器学习与热力学之间的联系,以描述迁移学习中学习表征的质量。我们将讨论诸如速率、畸变和分类损失等信息理论泛函如何位于一个凸的,所谓的平衡曲面上。我们规定了在约束条件下穿越该表面的动态过程,例如,一个调制速率和失真以保持分类损失不变的等分类过程。我们将演示这些过程如何完全控制从源数据集到目标数据集的传输,并保证最终模型的性能。

成为VIP会员查看完整内容
0
104
小贴士
相关VIP内容
专知会员服务
30+阅读 · 3月1日
专知会员服务
40+阅读 · 2020年12月5日
专知会员服务
22+阅读 · 2020年11月30日
专知会员服务
24+阅读 · 2020年11月29日
专知会员服务
10+阅读 · 2020年11月22日
(ICML 2020 Tutorial)贝叶斯深度学习与概率模型构建,134页ppt
专知会员服务
104+阅读 · 2020年5月22日
相关资讯
220页深度神经网络基础、理论与挑战PPT【下载】
机器学习算法与Python学习
4+阅读 · 2018年9月12日
利用Matlab实现深度学习【附45页PPT】
专知
5+阅读 · 2018年8月18日
深度学习线性代数简明教程
论智
5+阅读 · 2018年5月30日
【干货】理解深度学习中的矩阵运算
专知
8+阅读 · 2018年2月12日
相关论文
Vasimuddin Md,Sanchit Misra,Guixiang Ma,Ramanarayan Mohanty,Evangelos Georganas,Alexander Heinecke,Dhiraj Kalamkar,Nesreen K. Ahmed,Sasikanth Avancha
0+阅读 · 4月15日
Alessandro Erba,Anne Müller,Nils Ole Tippenhauer
0+阅读 · 4月13日
Urvil Nileshbhai Jivani,Omatharv Bharat Vaidya,Anwesh Bhattacharya,Snehanshu Saha
0+阅读 · 4月10日
Xinyu Fu,Jiani Zhang,Ziqiao Meng,Irwin King
37+阅读 · 2020年2月5日
Feng Xue,Xiangnan He,Xiang Wang,Jiandong Xu,Kai Liu,Richang Hong
3+阅读 · 2018年11月11日
Xiangnan He,Zhankui He,Jingkuan Song,Zhenguang Liu,Yu-Gang Jiang,Tat-Seng Chua
3+阅读 · 2018年9月19日
Tong Qin,Ling Zhou,Dongbin Xiu
3+阅读 · 2018年8月17日
Matthew Kennedy,Nicholas A. Manor,Vern I. Paulsen
3+阅读 · 2017年12月7日
Top