近年来,随机矩阵理论(RMT)已经成为学习理论的前沿,作为一种工具来理解它的一些最重要的挑战。从深度学习模型的泛化到优化算法的精确分析,RMT提供了易于分析的模型。

第一部分:介绍和经典随机矩阵理论集合

本节介绍两个经典的随机矩阵理论集合,高斯正交集合和Wishart矩阵。通过数值实验,我们将介绍随机矩阵理论中一些最重要的分布,如半圆和马尔钦科-帕斯图,以及一些关键的概念,如通用性。 图片

第2部分:随机矩阵理论概论:斯蒂尔吉斯和R变换 本节介绍随机矩阵理论中的一些核心证明技术: Stieltjes和R变换。

第3部分:数值算法分析 本节主要介绍随机矩阵理论在数值算法分析中的应用。

第4部分:为什么深度学习有效? 本节讨论深度神经网络泛化的随机矩阵理论模型。

https://random-matrix-learning.github.io/#presentation1

成为VIP会员查看完整内容
0
47

相关内容

这项工作的目标是向读者介绍加权有限状态自动机及其在机器学习中的应用。我首先介绍了机器学习中自动机的使用,然后介绍了受体、换能器和它们的相关属性。然后详细描述了加权自动机的许多核心运算。在此基础上,通过解释自动分化及其在加权自动机中的应用,进一步向研究前沿迈进。最后一节介绍几个扩展示例,以加深对加权自动机及其操作的熟悉,以及它们在机器学习中的使用。

https://awnihannun.com/writing/automata_ml.html

成为VIP会员查看完整内容
0
21

机器学习(ML)最近的快速进展提出了一些科学问题,挑战了该领域长期存在的教条。最重要的谜题之一是过度参数化模型的良好经验泛化。过度参数化的模型对于训练数据集的大小来说过于复杂,这导致它们完美地拟合(即插值)训练数据,而训练数据通常是有噪声的。这种对噪声数据的插值传统上与有害的过拟合有关,但最近观察到,从简单的线性模型到深度神经网络的各种插值模型在新测试数据上都能很好地泛化。事实上,最近发现的双下降现象表明,在测试性能上,高度过度参数化的模型往往比最好的欠参数化模型更好。理解这种过度参数化的学习需要新的理论和基础的实证研究,即使是最简单的线性模型。这种理解的基础已经在最近对过度参数化线性回归和相关统计学习任务的分析中奠定,这导致了双下降的精确分析特征。本文简要概述了这一新兴的过度参数化ML理论(以下简称为TOPML),并从统计信号处理的角度解释了这些最新发现。我们强调将TOPML研究领域定义为现代ML理论的一个子领域的独特方面,并概述了仍然存在的有趣的未决问题。

https://www.zhuanzhi.ai/paper/182ad6c4b994aa517d10319504e9bb3a

引言

深度学习技术已经彻底改变了许多工程和科学问题的解决方式,使数据驱动方法成为实践成功的主要选择。当前的深度学习方法是经典机器学习(ML)设置的极限开发版本,以前这些设置受到有限的计算资源和训练数据可用性不足的限制。目前已建立的实践是从一组训练示例中学习高度复杂的深度神经网络(DNN),这些示例虽然本身很大,但相对于DNN中的参数数量来说相当小。虽然这种过度参数化的DNN在ML实践中是最先进的,但这种实际成功的根本原因仍不清楚。特别神秘的是两个经验观察结果: 1) 模型中添加更多参数的明显益处(在泛化方面),2) 这些模型即使完美地拟合了噪声训练数据,也能很好地泛化。这些观察结果在现代ML的不同结构中都得到了体现——当它们首次被用于复杂的、最先进的DNN时(Neyshabur et al., 2014; Zhang et al., 2017)),它们已经在更简单的模型家族中出土,包括宽神经网络、核方法,甚至线性模型(Belkin et al., 2018b; Spigler et al., 2019; Geiger et al., 2020; Belkin et al., 2019a)。

在本文中,我们综述了最近发展起来的过度参数化机器学习理论(简称TOPML),该理论建立了与训练数据插值(即完美拟合)相关的现象相关的基本数学原理。我们很快将提供一个过度参数化ML的正式定义,但在这里描述一些模型必须满足的显著属性,以合格为过度参数化。首先,这样的模型必须是高度复杂的,因为它的独立可调参数的数量要远远高于训练数据集中的示例数量。其次,这样的模型绝不能以任何方式被明确地规范化。DNN是过度参数化模型的常见实例,这些模型通常没有明确的正则化训练(参见,例如,Neyshabur et al., 2014; Zhang et al., 2017)。这种过度参数化和缺乏显式正则化的组合产生了一个可插值训练示例的学习模型,因此在任何训练数据集上都实现了零训练误差。训练数据通常被认为是来自底层数据类(即噪声数据模型)的噪声实现。因此,插值模型完美地拟合了基础数据和训练示例中的噪声。传统的统计学习总是将噪声的完美拟合与较差的泛化性能联系在一起(例如,Friedman et al., 2001, p. 194);因此,值得注意的是,这些插值解决方案通常能很好地泛化到训练数据集以外的新测试数据。

在本文中,我们回顾了TOPML研究的新兴领域,主要关注在过去几年发展的基本原理。与最近的其他综述相比(Bartlett et al., 2021; Belkin, 2021),我们从更基本的信号处理角度来阐明这些原则。形式上,我们将TOPML研究领域定义为ML理论的子领域,其中1. 明确考虑训练数据的精确或近似插值 2. 相对于训练数据集的大小,学习模型的复杂性较高。

本文组织如下。在第2节中,我们介绍了过度参数化学习中插值解的基础知识,作为一个机器学习领域,它超出了经典偏方差权衡的范围。在第3节中,我们概述了最近关于过度参数化回归的结果。在这里,我们从信号处理的角度直观地解释了过度参数化学习的基本原理。在第4节中,我们回顾了关于过度参数化分类的最新发现。在第5节中,我们概述了最近关于过度参数化子空间学习的工作。在第6节中,我们考察了最近关于回归和分类以外的过度参数化学习问题的研究。在第7节中,我们讨论了过度参数化ML理论中的主要开放问题。

成为VIP会员查看完整内容
0
18

大量大维度数据是现代机器学习(ML)的默认设置。标准的ML算法,从支持向量机这样的内核方法和基于图的方法(如PageRank算法)开始,最初的设计是基于小维度的,在处理真实世界的大数据集时,即使不是完全崩溃的话,往往会表现失常。随机矩阵理论最近提出了一系列广泛的工具来帮助理解这种新的维数诅咒,帮助修复或完全重建次优算法,最重要的是提供了处理现代数据挖掘的新方向。本编著的主要目的是提供这些直觉,通过提供一个最近的理论和应用突破的随机矩阵理论到机器学习摘要。针对广泛的受众,从对统计学习感兴趣的本科生到人工智能工程师和研究人员,这本书的数学先决条件是最小的(概率论、线性代数和真实和复杂分析的基础是足够的):与随机矩阵理论和大维度统计的数学文献中的介绍性书籍不同,这里的理论重点仅限于机器学习应用的基本要求。这些应用范围从检测、统计推断和估计,到基于图和核的监督、半监督和非监督分类,以及神经网络: 为此,本文提供了对算法性能的精确理论预测(在不采用随机矩阵分析时往往难以实现)、大维度的洞察力、改进方法,以及对这些方法广泛适用于真实数据的基本论证。该专著中提出的大多数方法、算法和图形都是用MATLAB和Python编写的,读者可以查阅(https://github.com/Zhenyu-LIAO/RMT4ML)。本专著也包含一系列练习两种类型:短的练习与修正附加到书的最后让读者熟悉随机矩阵的基本理论概念和工具分析,以及长期指导练习应用这些工具进一步具体的机器学习应用程序。

https://zhenyu-liao.github.io/book/

成为VIP会员查看完整内容
0
58

《量子信息理论》这本书基本上是自成体系的,主要关注构成这门学科基础的基本事实的精确数学公式和证明。它是为研究生和研究人员在数学,计算机科学,理论物理学寻求发展一个全面的理解关键结果,证明技术,和方法,与量子信息和计算理论的广泛研究主题相关。本书对基础数学,包括线性代数,数学分析和概率论有一定的理解。第一章总结了这些必要的数学先决条件,并从这个基础开始,这本书包括清晰和完整的证明它提出的所有结果。接下来的每一章都包含了具有挑战性的练习,旨在帮助读者发展自己的技能,发现关于量子信息理论的证明。

这是一本关于量子信息的数学理论的书,专注于定义、定理和证明的正式介绍。它主要是为对量子信息和计算有一定了解的研究生和研究人员准备的,比如将在本科生或研究生的入门课程中涵盖,或在目前存在的关于该主题的几本书中的一本中。量子信息科学近年来有了爆炸性的发展,特别是在过去的二十年里。对这个问题的全面处理,即使局限于理论方面,也肯定需要一系列的书,而不仅仅是一本书。与这一事实相一致的是,本文所涉及的主题的选择并不打算完全代表该主题。量子纠错和容错,量子算法和复杂性理论,量子密码学,和拓扑量子计算是在量子信息科学的理论分支中发现的许多有趣的和基本的主题,在这本书中没有涵盖。然而,当学习这些主题时,人们很可能会遇到本书中讨论的一些核心数学概念。

https://www.cambridge.org/core/books/theory-of-quantum-information/AE4AA5638F808D2CFEB070C55431D897#fndtn-information

成为VIP会员查看完整内容
0
57

对机器学习优化和无约束凸优化进行简明导论介绍。

成为VIP会员查看完整内容
0
44

近年来,深度学习已经成为机器学习和计算机视觉、自然语言处理等相关领域的中心范式。但是对这一努力的许多方面的数学理解仍然缺乏。训练何时成功,速度有多快? 用了多少例子? 各种架构的优点和局限性是什么? 本书重点研究深度学习的理论方面。

成为VIP会员查看完整内容
0
66

计算机科学在建模和解决问题的方法上正在经历一个根本性的转变。早期的计算机科学家主要研究离散数学,专注于由有限数量的不同片段组成的图形、树和阵列等结构。随着快速浮点处理、“大数据”、三维扫描和其他噪杂输入来源的引入,现代计算机科学工作者必须设计健壮的方法来处理和理解实值数据。现在,除了离散数学,计算机科学家必须同样流利地掌握多元微积分和线性代数的语言。

数值算法介绍了计算机科学应用的数值方法的用户所必需的技能。本文是为高级本科生和早期研究生设计的,他们熟悉数学符号和形式,但需要在考虑算法的同时复习连续的概念。它涵盖了广泛的主题基础,从数值线性代数到优化和微分方程,目标是导出标准方法,同时发展直觉和舒适所需的理解更多的文献在每个子主题。在书中,每一章都温和而严谨地介绍了数值方法、数学背景和现代计算机科学的实例。

几乎每个部分都考虑了给定类型的数值算法的实际用例。例如,奇异值分解与统计方法、点云对齐和低秩近似一起被引入,最小二乘的讨论包括机器学习的概念,如核化和正则化。本理论与应用并行介绍的目的是提高设计数值方法和每种方法在实际情况中的应用。

成为VIP会员查看完整内容
0
61

基于最近关于非凸优化算法在训练深度神经网络和数据分析中的其他优化问题中的应用,我们对非凸优化算法全局性能保证的最新理论成果进行了综述。我们从经典的论证开始,证明一般的非凸问题不可能在合理的时间内得到有效的解决。然后,我们给出了一个可以通过尽可能多地利用问题的结构来寻找全局最优解的问题列表。处理非凸性的另一种方法是将寻找全局最小值的目标放宽到寻找一个平稳点或局部最小值。对于这种设置,我们首先给出确定性一阶方法收敛速度的已知结果,然后是最优随机和随机梯度格式的一般理论分析,以及随机一阶方法的概述。然后,我们讨论了相当一般的一类非凸问题,如α-弱拟凸函数的极小化和满足Polyak- Lojasiewicz条件的函数,这些函数仍然可以得到一阶方法的理论收敛保证。然后我们考虑非凸优化问题的高阶、零阶/无导数方法及其收敛速度。

成为VIP会员查看完整内容
0
53

本书介绍了数据科学的数学和算法基础,包括机器学习、高维几何和大型网络的分析。主题包括高维数据的反直觉性质、重要的线性代数技术,如奇异值分解、随机游动和马尔科夫链理论、机器学习的基本原理和重要算法、聚类算法和分析、大型网络的概率模型、表示学习,包括主题建模和非负矩阵分解、小波和压缩感知。本文提出了一种正概率技术,包括大数定律、尾部不等式、随机投影分析、机器学习中的泛化保证以及分析大随机图相变的矩量法。此外,还讨论了重要的结构和复杂性度量,如矩阵范数和vc维。本书适用于设计和分析数据算法的本科和研究生课程。

成为VIP会员查看完整内容
0
85

高斯过程(GPs)为核机器的学习提供了一种有原则的、实用的、概率的方法。在过去的十年中,GPs在机器学习社区中得到了越来越多的关注,这本书提供了GPs在机器学习中理论和实践方面长期需要的系统和统一的处理。该书是全面和独立的,针对研究人员和学生在机器学习和应用统计学。

这本书处理监督学习问题的回归和分类,并包括详细的算法。提出了各种协方差(核)函数,并讨论了它们的性质。从贝叶斯和经典的角度讨论了模型选择。讨论了许多与其他著名技术的联系,包括支持向量机、神经网络、正则化网络、相关向量机等。讨论了包括学习曲线和PAC-Bayesian框架在内的理论问题,并讨论了几种用于大数据集学习的近似方法。这本书包含说明性的例子和练习,和代码和数据集在网上是可得到的。附录提供了数学背景和高斯马尔可夫过程的讨论。

成为VIP会员查看完整内容
0
130
小贴士
相关VIP内容
专知会员服务
21+阅读 · 9月23日
专知会员服务
18+阅读 · 9月19日
专知会员服务
58+阅读 · 8月12日
专知会员服务
57+阅读 · 8月4日
专知会员服务
44+阅读 · 7月31日
专知会员服务
66+阅读 · 6月11日
专知会员服务
53+阅读 · 2020年12月18日
专知会员服务
130+阅读 · 2020年5月2日
相关论文
Tighter risk certificates for neural networks
María Pérez-Ortiz,Omar Rivasplata,John Shawe-Taylor,Csaba Szepesvári
0+阅读 · 9月22日
Sebastian Espinosa,Jorge F. Silva,Pablo Piantanida
0+阅读 · 9月21日
Dan Iter,David Grangier
0+阅读 · 9月21日
PKLM: A flexible MCAR test using Classification
Loris Michel,Jeffrey Näf,Meta-Lina Spohn,Nicolai Meinshausen
0+阅读 · 9月21日
Andrew Pavlides,Vasiliki Agou,Dionissios T. Hristopulos
0+阅读 · 9月21日
Hugo Touvron,Piotr Bojanowski,Mathilde Caron,Matthieu Cord,Alaaeldin El-Nouby,Edouard Grave,Armand Joulin,Gabriel Synnaeve,Jakob Verbeek,Hervé Jégou
11+阅读 · 5月7日
Optimization for deep learning: theory and algorithms
Ruoyu Sun
81+阅读 · 2019年12月19日
Kwonjoon Lee,Subhransu Maji,Avinash Ravichandran,Stefano Soatto
4+阅读 · 2019年4月23日
The Matrix Calculus You Need For Deep Learning
Terence Parr,Jeremy Howard
6+阅读 · 2018年7月2日
Top