深度学习的研究在许多机器学习任务上产生了最先进的结果。大多数的进步都是由直觉和通过试验和错误进行的大规模探索推动的。因此,目前理论落后于实践。ML社区并不完全理解为什么最好的方法是有效的。来自UIUC Matus Telgarsky教授撰写了关于深度学习理论笔记,值得关注。

地址: https://mjt.cs.illinois.edu/dlt/

这些笔记的哲学。两个关键的观点决定了到目前为止所包含的内容。

我的目标是对文献中出现的东西提供简化的证明,理想情况下,把困难的东西简化成适合一节课的东西。

我主要关注通过标准(通常是ReLU)前馈网络实现IID数据的二进制分类的低测试误差。

内容组织:

近似 (从第1节开始): 给定一个分类问题,存在一个深度网络,在分布上实现低误差。

优化 (从第9节开始): 对于一个分类问题,给定一个有限的训练集,存在寻找低训练误差和低复杂度的预测器的算法。

泛化 (从第16节开始): 对于低复杂度的网络,训练和测试误差之间的差距很小。

成为VIP会员查看完整内容
0
38

相关内容

机器学习的数学方面的入门课程,包括监督学习,无监督学习,稀疏性和在线学习。

课程内容将视学期进度和收到的反馈而定,暂定计划如下:

(1)无监督学习与数据精简:

聚类和k-means

奇异值分解

低秩近似和Eckart-Young-Mirsky定理

降维和主成分分析

矩阵完成和Netflix奖

过度完备字典和有限框架理论

稀疏性和压缩感知

谱图理论简介。

(2) 在线监督学习:

分类器的分类和泛化介绍

一些集中不等式

稳定性和VC维

在线学习:根据专家建议和指数权重进行学习

简单介绍优化和梯度下降

https://people.math.ethz.ch/~abandeira/Math_of_ML_Lecture_Notes2021.pdf

成为VIP会员查看完整内容
0
30

本报告的主要目标是发展一个全面深度学习理论基础。方案内的研究将按照三个相互补充的观点进行,即 将神经网络训练视为统计学习问题并研究表达性、学习、优化和泛化的统计学观点,

应用观点关注于安全性、健壮性、可解释性和公平性

采用数学方法论的观点发展和理论性分析新的基于深度学习的方法来解决逆问题问题和偏微分方程。

https://www.spp2298.de/

成为VIP会员查看完整内容
0
32

【导读】本文档包含加州大学伯克利分校机器学习Jonathan Shewchuk入门课程的课堂讲稿。它涵盖了许多分类和回归的方法,以及聚类和降维的方法。简洁明了,是非常合适的机器学习入门学习材料。

内容目录包括: 介绍 线性分类器和感知器 感知器学习;最大边缘分类器 软边缘支持向量机;特性 机器学习抽象和数值优化 决策理论;生成和判别模型 高斯判别分析,包括QDA和LDA 特征向量与各向异性多元正态分布 各向异性高斯,最大似然估计,QDA和LDA 回归,包括最小二乘线性回归和逻辑回归 更多的回归;牛顿法;ROC曲线 统计的理由;偏见方差分解 收缩:脊线回归,子集选择,套索 内核的诀窍 决策树 更多的决策树、集成学习和随机森林 神经网络 神经元;神经网络的变化 更好的神经网络训练;卷积神经网络 无监督学习与主成分分析 奇异值分解;聚类 光谱图聚类 学习理论 多个特征向量;潜在的因素分析;最近的邻居 更快的最近邻居:Voronoi图和k-d树

成为VIP会员查看完整内容
0
39

这些是我在2020年秋季在莫斯科物理与技术研究所(MIPT)和Yandex数据分析学院(YSDA)做的演讲笔记。这些笔记涵盖了初始化、损失曲面、泛化和神经切线核理论的一些方面。虽然许多其他的主题(如表达性,平均场理论,双下降现象)在当前版本中缺失,我们计划在未来的修订中添加它们。

https://www.zhuanzhi.ai/paper/2fc29465d202ea8e657db29311027617

成为VIP会员查看完整内容
0
35

机器学习和人工神经网络无处不在,它们对我们日常生活的影响比我们可能意识到的还要深远。这堂课是专门针对机器学习在不同科学领域的使用的介绍。在科学研究中,我们看到机器学习的应用越来越多,反映了工业技术的发展。这样一来,机器学习就成为了精确科学的通用新工具,与微积分、传统统计学和数值模拟等方法并行其道。这就提出了一个问题,在图2所示的科学工作流程中,这些新方法是最好的。

此外,一旦确定了一项特定的任务,将机器学习应用到科学领域就会面临非常具体的挑战: (i) 科学数据通常具有非常特定的结构,例如晶体图像中近乎完美的周期性; (ii) 通常情况下,我们对应该反映在机器学习分析中的数据相关性有特定的知识; (iii) 我们想要了解为什么一个特定的算法会起作用,寻求对自然机制和法则的基本见解; (iv) 在科学领域,我们习惯于算法和定律提供确定性答案,而机器学习本质上是概率性的——不存在绝对的确定性。尽管如此,定量精度在许多科学领域是至关重要的,因此是机器学习方法的一个关键基准。

这堂课是为科学领域的科学家和学生介绍基本机器学习算法。我们将涵盖:

  • 最基本的机器学习算法,
  • 该领域的术语,简要解释,
  • 监督和无监督学习的原理,以及为什么它是如此成功,
  • 各种人工神经网络的架构和它们适合的问题,
  • 我们如何发现机器学习算法使用什么来解决问题

机器学习领域充满了行话,对于不了解机器学习的人来说,这些行话掩盖了机器学习方法的核心。作为一个不断变化的领域,新的术语正在以快速的速度被引入。我们的目标是通过精确的数学公式和简洁的公式来切入俚语,为那些了解微积分和线性代数的人揭开机器学习概念的神秘面纱。

如上所述,数据是本节课所讨论的大多数机器学习方法的核心。由于原始数据在很多情况下非常复杂和高维,首先更好地理解数据并降低它们的维数往往是至关重要的。下一节,第2节将讨论在转向神经网络的重型机器之前可以使用的简单算法。

我们最关注的机器学习算法,一般可以分为两类算法,即判别算法和生成算法,如图3所示。判别任务的例子包括分类问题,如上述数字分类或分类为固体,液体和气相给出一些实验观测。同样,回归,也就是估计变量之间的关系,也是一个判别问题。更具体地说,我们在给定一些输入数据x的情况下,尝试近似某个变量y (label)的条件概率分布P(y|x)。由于这些任务中的大部分数据都是以输入数据和目标数据的形式提供的,这些算法通常采用监督学习。判别算法最直接地适用于科学,我们将在第3和第4节中讨论它们。

人工智能的前景可能引发科学领域的不合理预期。毕竟,科学知识的产生是最复杂的智力过程之一。计算机算法肯定还远没有达到那样复杂的水平,而且在不久的将来也不会独立地制定新的自然法则。尽管如此,研究人员研究了机器学习如何帮助科学工作流程的各个部分(图2)。虽然制定牛顿经典力学定律所需的抽象类型似乎难以置信地复杂,但神经网络非常擅长隐式知识表示。然而,要准确地理解它们是如何完成某些任务的,并不是一件容易的事情。我们将在第6节讨论这个可解释的问题。

第三类算法被称为强化学习(reinforcement learning),它不完全符合近似统计模型的框架. 机器学习的成功很大程度上与科学家使用适当算法的经验有关。因此,我们强烈建议认真解决伴随练习,并充分利用练习课程。

成为VIP会员查看完整内容
0
46

在过去的十年里,神经网络在视觉、语音、语言理解、医学、机器人和游戏等领域取得了惊人的成果。人们原本以为,这种成功需要克服理论上存在的重大障碍。毕竟,深度学习优化是非凸的、高度非线性的、高维的,那么我们为什么能够训练这些网络呢?在许多情况下,它们拥有的参数远远多于记忆数据所需的参数,那么为什么它们能够很好地推广呢?尽管这些主题已经占据了机器学习研究领域的大部分注意力,但当涉及到更简单的模型时,神经网络领域的原则是先数据训练再说。显然,这招奏效了。

https://www.cs.toronto.edu/~rgrosse/courses/csc2541_2021/

结果,神经网络的实际成功已经超过了我们理解它们如何工作的能力。这门课是关于开发概念工具来理解当神经网络训练时会发生什么。其中一些思想早在几十年前就已经形成了(可能已经被社区的大部分人遗忘了),而另一些思想今天才刚刚开始被理解。我将试图传达我们最好的现代理解,尽管它可能不完整。

这门课从优化中汲取灵感,它不是一门优化课。一方面,优化的研究通常是指令性的,从优化问题的信息和明确定义的目标(如在特定规范下快速收敛)开始,并找出保证实现该目标的计划。对于现代神经网络来说,分析通常是描述性的: 采用在使用的程序,并找出它们(似乎)有效的原因。希望这种理解能让我们改进算法。

与优化研究的另一个区别是,目标不是简单地拟合一个有限的训练集,而是一般化。尽管神经网络有巨大的能力,但为什么它能泛化与训练的动态密切相关。因此,如果我们从优化中引入一个想法,我们不仅需要考虑它是否会更快地最小化成本函数,还需要考虑它是否以一种有利于泛化的方式实现。

这类应用不会为您提供在ImageNet上实现最先进性能的方法。它也不是那种为了证明定理而去证明定理的理论课。相反,我们的目的是为您提供概念性工具,以便您在任何特定情况下推断出影响训练的因素。

除了让你的网络更好地训练之外,学习神经网络训练动力学的另一个重要原因是,许多现代架构本身就足够强大,可以进行优化。这可能是因为我们在体系结构中明确地构建了优化,就像在MAML或深度均衡模型中那样。或者,我们可能只是在大量数据上训练一个灵活的架构,然后发现它具有惊人的推理能力,就像GPT3一样。不管怎样,如果网络架构本身在优化某些东西,那么外部训练过程就会与本课程中讨论的问题纠缠在一起,不管我们喜欢与否。为了有希望理解它提出的解决方案,我们需要理解问题。因此,本课程将以双层优化结束,利用课程中涵盖的所有内容。

目录内容:

  • 线性回归

我们将通过分析一个简单的模型开始这门课,梯度下降动力学可以被精确地确定:线性回归。尽管线性回归很简单,但它提供了对神经网络训练惊人的洞察力。我们将使用线性回归来理解两种神经网络训练现象: 为什么对输入进行归一化是一个好策略,以及增加维度可以减少过拟合。

  • 泰勒近似

线性化是我们理解非线性系统最重要的工具之一。我们将涵盖神经网络的一阶泰勒近似(梯度,方向导数)和二阶近似(Hessian)。我们将看到如何用雅可比向量乘积有效地计算它们。我们将使用Hessian诊断缓慢收敛和解释网络预测。

  • 度量

度量给出了流形上距离的一个局部概念。在许多情况下,两个神经网络之间的距离可以更有效地定义为它们所代表的函数之间的距离,而不是权重向量之间的距离。这就引出了一个重要的优化工具,叫做自然梯度。

  • 二阶优化

我们从几个角度来激励神经网络的二阶优化:最小化二阶泰勒近似、预处理、不变性和近端优化。我们将看到如何使用共轭梯度或克罗内克因子近似来近似二阶更新。

  • 自适应梯度法、归一化和权值衰减

我们看看已经成为神经网络训练的主要内容的三个算法特征。我们试图理解它们对动力学的影响,并找出构建深度学习系统的一些陷阱。

  • 无穷极限与过度参数化
  • Stochastic Optimization and Scaling
  • Bayesian Inference and Implicit Regularization
  • Dynamical Systems and Momentum
  • Differential Games
  • Bilevel Optimization
成为VIP会员查看完整内容
1
36

深度学习的研究在许多机器学习任务上产生了最先进的结果。大多数的进步都是由直觉和通过试验和错误进行的大规模探索推动的。因此,目前理论落后于实践。ML社区并不完全理解为什么最好的方法是有效的。来自UIUC Matus Telgarsky教授撰写了关于深度学习理论笔记,值得关注。

地址: https://mjt.cs.illinois.edu/dlt/

这些笔记的哲学。两个关键的观点决定了到目前为止所包含的内容。 我的目标是对文献中出现的东西提供简化的证明,理想情况下,把困难的东西简化成适合一节课的东西。 我主要关注通过标准(通常是ReLU)前馈网络实现IID数据的二进制分类的低测试误差的经典观点。

内容组织:

  • 近似 (从第1节开始): 给定一个分类问题,存在一个深度网络,在分布上实现低误差。

  • 优化 (从第9节开始): 对于一个分类问题,给定一个有限的训练集,存在寻找低训练误差和低复杂度的预测器的算法。

  • 泛化 (从第16节开始): 对于低复杂度的网络,训练和测试误差之间的差距很小。

成为VIP会员查看完整内容
0
46

基于最近关于非凸优化算法在训练深度神经网络和数据分析中的其他优化问题中的应用,我们对非凸优化算法全局性能保证的最新理论成果进行了综述。我们从经典的论证开始,证明一般的非凸问题不可能在合理的时间内得到有效的解决。然后,我们给出了一个可以通过尽可能多地利用问题的结构来寻找全局最优解的问题列表。处理非凸性的另一种方法是将寻找全局最小值的目标放宽到寻找一个平稳点或局部最小值。对于这种设置,我们首先给出确定性一阶方法收敛速度的已知结果,然后是最优随机和随机梯度格式的一般理论分析,以及随机一阶方法的概述。然后,我们讨论了相当一般的一类非凸问题,如α-弱拟凸函数的极小化和满足Polyak- Lojasiewicz条件的函数,这些函数仍然可以得到一阶方法的理论收敛保证。然后我们考虑非凸优化问题的高阶、零阶/无导数方法及其收敛速度。

成为VIP会员查看完整内容
0
47

神经网络在诸多应用领域展现了巨大的潜力,成为当前最热门的研究方向之一。神经网络的训练主要通过求解一个优化问题来完成,但这是一个困难的非线性优化问题,传统的优化理论难以直接应用。在神经网络和优化的交叉领域,长期以来研究人员积累了大量的理论研究知识,不过这些研究或过于理论而不被大部分实践者所了解,或过于偏工程而不被理论学者所理解和欣赏。本文的目的是总结目前对于神经网络优化基本理论和算法的现状,架起理论和实践、优化和机器学习界之间的桥梁。

对苦于调参常感到困惑的工程师而言,本文可以提供一些已有的理论理解以供参考,并提供一些思考的方式。对理论学者而言,本文力图解释其作为数学问题的困难之所在以及目前的理论进展,以期吸引更多研究者投身神经网络优化理论和算法研究。

本文概述了神经网络的算法和优化理论。首先,我们讨论梯度爆炸/消失问题和更一般的谱控制问题,然后讨论实际中常用的解决方案,包括初始化方法和归一化方法。其次,我们回顾用于训练神经网络的一般优化方法,如SGD、自适应梯度方法和大规模分布式训练方法,以及这些算法的现有理论结果。第三,我们回顾了最近关于神经网络训练的全局问题的研究,包括局部极值、模式连接、彩票假设和无限宽度分析等方面的结果。

成为VIP会员查看完整内容
1
58
小贴士
相关VIP内容
专知会员服务
30+阅读 · 10月20日
专知会员服务
32+阅读 · 8月5日
专知会员服务
49+阅读 · 4月22日
专知会员服务
35+阅读 · 2月14日
专知会员服务
47+阅读 · 2020年12月18日
相关资讯
相关论文
Samuel Fernández-Lorenzo,Diego Porras,Juan José García-Ripoll
0+阅读 · 10月21日
Shangwei Guo,Tianwei Zhang,Han Yu,Xiaofei Xie,Lei Ma,Tao Xiang,Yang Liu
0+阅读 · 10月20日
Alejandra Benitez,Maya L. Petersen,Mark J. van der Laan,Nicole Santos,Elizabeth Butrick,Dilys Walker,Rakesh Ghosh,Phelgona Otieno,Peter Waiswa,Laura B. Balzer
0+阅读 · 10月18日
Qing Guo,Ziyi Cheng,Felix Juefei-Xu,Lei Ma,Xiaofei Xie,Yang Liu,Jianjun Zhao
0+阅读 · 10月18日
Hrayr Harutyunyan,Maxim Raginsky,Greg Ver Steeg,Aram Galstyan
12+阅读 · 10月4日
Bivariate Beta LSTM
Kyungwoo Song,JoonHo Jang,Seung jae Shin,Il-Chul Moon
5+阅读 · 2019年10月7日
Jiazhan Feng,Chongyang Tao,Wei Wu,Yansong Feng,Dongyan Zhao,Rui Yan
5+阅读 · 2019年6月11日
Deep Learning for Energy Markets
Michael Polson,Vadim Sokolov
4+阅读 · 2019年4月10日
A Survey of Learning Causality with Data: Problems and Methods
Ruocheng Guo,Lu Cheng,Jundong Li,P. Richard Hahn,Huan Liu
7+阅读 · 2018年9月25日
Relational recurrent neural networks
Adam Santoro,Ryan Faulkner,David Raposo,Jack Rae,Mike Chrzanowski,Theophane Weber,Daan Wierstra,Oriol Vinyals,Razvan Pascanu,Timothy Lillicrap
8+阅读 · 2018年6月28日
Top