近年来,深度学习已经成为机器学习和计算机视觉、自然语言处理等相关领域的中心范式。但是对这一努力的许多方面的数学理解仍然缺乏。训练何时成功,速度有多快? 用了多少例子? 各种架构的优点和局限性是什么? 本书重点研究深度学习的理论方面。

成为VIP会员查看完整内容
0
66

相关内容

《量子信息理论》这本书基本上是自成体系的,主要关注构成这门学科基础的基本事实的精确数学公式和证明。它是为研究生和研究人员在数学,计算机科学,理论物理学寻求发展一个全面的理解关键结果,证明技术,和方法,与量子信息和计算理论的广泛研究主题相关。本书对基础数学,包括线性代数,数学分析和概率论有一定的理解。第一章总结了这些必要的数学先决条件,并从这个基础开始,这本书包括清晰和完整的证明它提出的所有结果。接下来的每一章都包含了具有挑战性的练习,旨在帮助读者发展自己的技能,发现关于量子信息理论的证明。

这是一本关于量子信息的数学理论的书,专注于定义、定理和证明的正式介绍。它主要是为对量子信息和计算有一定了解的研究生和研究人员准备的,比如将在本科生或研究生的入门课程中涵盖,或在目前存在的关于该主题的几本书中的一本中。量子信息科学近年来有了爆炸性的发展,特别是在过去的二十年里。对这个问题的全面处理,即使局限于理论方面,也肯定需要一系列的书,而不仅仅是一本书。与这一事实相一致的是,本文所涉及的主题的选择并不打算完全代表该主题。量子纠错和容错,量子算法和复杂性理论,量子密码学,和拓扑量子计算是在量子信息科学的理论分支中发现的许多有趣的和基本的主题,在这本书中没有涵盖。然而,当学习这些主题时,人们很可能会遇到本书中讨论的一些核心数学概念。

https://www.cambridge.org/core/books/theory-of-quantum-information/AE4AA5638F808D2CFEB070C55431D897#fndtn-information

成为VIP会员查看完整内容
0
58

蒸汽机为工业革命提供了动力,并永远地改变了制造业——但直到接下来的一个世纪,热力学定律和统计力学原理得到发展,科学家们才能够在理论层面上全面解释蒸汽机为何以及如何工作。

当然,缺乏理论理解并没有阻止人们对蒸汽机的改进,但是热机原理的发现导致了迅速的改进。当科学家们最终掌握了统计力学,其结果远远超出了制造更好、更高效的发动机。统计力学使人们认识到物质是由原子构成的,它预示了量子力学的发展,(如果你从整体上看)甚至使我们看到了为我们今天使用的计算机提供动力的晶体管。

如今,人工智能正处于类似的关头。深度神经网络(DNNs)是现代人工智能研究的一部分,但它们或多或少被视为一个“黑盒子”。尽管人工智能从业者取得了重大进展,但DNN通常被认为过于复杂,无法从基本原理理解。模型在很大程度上是通过反复试验来调整的——虽然反复试验可以通过多年的经验来明智地进行,但却没有任何统一的理论语言来描述DNN及其功能。

《深度学习理论原理:理解神经网络的有效理论方法》的新书出版,该研究由Facebook AI Research的Sho Yaida、麻省理工学院和Salesforce的Dan Roberts以及普林斯顿的Boris Hanin共同完成。作为一个基本的层面,这本书提供了一个从第一原则理解DNNs的理论框架。对于人工智能从业者来说,这种理解可以显著减少训练这些DNN所需的试错次数。例如,它可以揭示任何给定模型的最佳超参数,而不需要经过今天所需要的时间和计算密集的实验。

《深度学习理论原理》将于2022年初由剑桥大学出版社出版,手稿现已公开。斯坦福大学物理学教授伊娃·西尔弗斯坦(Eva Silverstein)说:“这本书提出了一种机器学习理论方法。”看到这些方法在理解和改进人工智能方面取得的进展将是令人兴奋的。

这只是重塑人工智能科学这一更大项目的第一步,这一项目既源自基本原理,同时也专注于描述现实模型的实际工作方式。如果成功,这种深度学习的一般理论可能会使人工智能模型更加强大,甚至可能引导我们建立一个研究通用智能方面的框架。

https://ai.facebook.com/blog/advancing-ai-theory-with-a-first-principles-understanding-of-deep-neural-networks/

成为VIP会员查看完整内容
0
114

近年来,自然语言处理的研究方法取得了一些突破。这些突破来源于两个新的建模框架以及在计算和词汇资源的可用性的改进。在这个研讨会小册子中,我们将回顾这些框架,以一种可以被视为现代自然语言处理开端的方法论开始:词嵌入。我们将进一步讨论将嵌入式集成到端到端可训练方法中,即卷积神经网络和递归神经网络。这本小册子的第二章将讨论基于注意力的模型的影响,因为它们是最近大多数最先进的架构的基础。因此,我们也将在本章中花很大一部分时间讨论迁移学习方法在现代自然语言处理中的应用。最后一章将会是一个关于自然语言生成的说明性用例,用于评估最先进的模型的训练前资源和基准任务/数据集。

https://compstat-lmu.github.io/seminar_nlp_ss20/

在过去的几十年里,人工智能技术的重要性和应用不断得到关注。在当今时代,它已经与构成人类塑造环境的大部分环境密不可分。因此,商业、研究和开发、信息服务、工程、社会服务和医学等无数部门已经不可逆转地受到人工智能能力的影响。人工智能有三个主要领域组成了这项技术:语音识别、计算机视觉和自然语言处理(见Yeung (2020))。在这本书中,我们将仔细研究自然语言处理(NLP)的现代方法。

这本小册子详细介绍了用于自然语言处理的现代方法,如深度学习和迁移学习。此外,本研究亦会研究可用于训练自然语言处理任务的资源,并会展示一个将自然语言处理应用于自然语言生成的用例。

为了分析和理解人类语言,自然语言处理程序需要从单词和句子中提取信息。由于神经网络和其他机器学习算法需要数字输入来进行训练,因此应用了使用密集向量表示单词的词嵌入。这些通常是通过有多个隐藏层的神经网络学习的,深度神经网络。为了解决容易的任务,可以应用简单的结构神经网络。为了克服这些简单结构的局限性,采用了递归和卷积神经网络。因此,递归神经网络用于学习不需要预先定义最佳固定维数的序列的模型,卷积神经网络用于句子分类。第二章简要介绍了NLP中的深度学习。第三章将介绍现代自然语言处理的基础和应用。在第四章和第五章中,将解释和讨论递归神经网络和卷积神经网络及其在自然语言处理中的应用。

迁移学习是每个任务或领域的学习模型的替代选择。在这里,可以使用相关任务或领域的现有标记数据来训练模型,并将其应用到感兴趣的任务或领域。这种方法的优点是不需要在目标域中进行长时间的训练,并且可以节省训练模型的时间,同时仍然可以(在很大程度上)获得更好的性能。迁移学习中使用的一个概念是注意力,它使解码器能够注意到整个输入序列,或自注意,它允许一个Transformer 模型处理所有输入单词,并建模一个句子中所有单词之间的关系,这使得快速建模一个句子中的长期依赖性成为可能。迁移学习的概念将在小册子的第6章简要介绍。第七章将通过ELMo、ULMFiT和GPT模型来描述迁移学习和LSTMs。第八章将详细阐述注意力和自注意力的概念。第九章将迁移学习与自注意力相结合,介绍了BERT模型、GTP2模型和XLNet模型。

为NLP建模,需要资源。为了找到任务的最佳模型,可以使用基准测试。为了在基准实验中比较不同的模型,需要诸如精确匹配、Fscore、困惑度或双语评估替补学习或准确性等指标。小册子的第十章简要介绍了自然语言处理的资源及其使用方法。第11章将解释不同的指标,深入了解基准数据集SQuAD、CoQa、GLUE和SuperGLUE、AQuA-Rat、SNLI和LAMBADA,以及可以找到资源的预训练模型和数据库,如“带代码的论文”和“大坏的NLP数据库”。

在小册子的最后一章中,介绍了生成性NLP处理自然语言生成,从而在人类语言中生成可理解的文本。因此,不同的算法将被描述,聊天机器人和图像字幕将被展示,以说明应用的可能性。

本文对自然语言处理中各种方法的介绍是接下来讨论的基础。小册子的各个章节将介绍现代的NLP方法,并提供了一个更详细的讨论,以及各种示例的潜力和限制。

成为VIP会员查看完整内容
0
162

这些是我在2020年秋季在莫斯科物理与技术研究所(MIPT)和Yandex数据分析学院(YSDA)做的演讲笔记。这些笔记涵盖了初始化、损失曲面、泛化和神经切线核理论的一些方面。虽然许多其他的主题(如表达性,平均场理论,双下降现象)在当前版本中缺失,我们计划在未来的修订中添加它们。

https://www.zhuanzhi.ai/paper/2fc29465d202ea8e657db29311027617

成为VIP会员查看完整内容
0
36

在过去的十年里,神经网络在视觉、语音、语言理解、医学、机器人和游戏等领域取得了惊人的成果。人们原本以为,这种成功需要克服理论上存在的重大障碍。毕竟,深度学习优化是非凸的、高度非线性的、高维的,那么我们为什么能够训练这些网络呢?在许多情况下,它们拥有的参数远远多于记忆数据所需的参数,那么为什么它们能够很好地推广呢?尽管这些主题已经占据了机器学习研究领域的大部分注意力,但当涉及到更简单的模型时,神经网络领域的原则是先数据训练再说。显然,这招奏效了。

https://www.cs.toronto.edu/~rgrosse/courses/csc2541_2021/

结果,神经网络的实际成功已经超过了我们理解它们如何工作的能力。这门课是关于开发概念工具来理解当神经网络训练时会发生什么。其中一些思想早在几十年前就已经形成了(可能已经被社区的大部分人遗忘了),而另一些思想今天才刚刚开始被理解。我将试图传达我们最好的现代理解,尽管它可能不完整。

这门课从优化中汲取灵感,它不是一门优化课。一方面,优化的研究通常是指令性的,从优化问题的信息和明确定义的目标(如在特定规范下快速收敛)开始,并找出保证实现该目标的计划。对于现代神经网络来说,分析通常是描述性的: 采用在使用的程序,并找出它们(似乎)有效的原因。希望这种理解能让我们改进算法。

与优化研究的另一个区别是,目标不是简单地拟合一个有限的训练集,而是一般化。尽管神经网络有巨大的能力,但为什么它能泛化与训练的动态密切相关。因此,如果我们从优化中引入一个想法,我们不仅需要考虑它是否会更快地最小化成本函数,还需要考虑它是否以一种有利于泛化的方式实现。

这类应用不会为您提供在ImageNet上实现最先进性能的方法。它也不是那种为了证明定理而去证明定理的理论课。相反,我们的目的是为您提供概念性工具,以便您在任何特定情况下推断出影响训练的因素。

除了让你的网络更好地训练之外,学习神经网络训练动力学的另一个重要原因是,许多现代架构本身就足够强大,可以进行优化。这可能是因为我们在体系结构中明确地构建了优化,就像在MAML或深度均衡模型中那样。或者,我们可能只是在大量数据上训练一个灵活的架构,然后发现它具有惊人的推理能力,就像GPT3一样。不管怎样,如果网络架构本身在优化某些东西,那么外部训练过程就会与本课程中讨论的问题纠缠在一起,不管我们喜欢与否。为了有希望理解它提出的解决方案,我们需要理解问题。因此,本课程将以双层优化结束,利用课程中涵盖的所有内容。

目录内容:

  • 线性回归

我们将通过分析一个简单的模型开始这门课,梯度下降动力学可以被精确地确定:线性回归。尽管线性回归很简单,但它提供了对神经网络训练惊人的洞察力。我们将使用线性回归来理解两种神经网络训练现象: 为什么对输入进行归一化是一个好策略,以及增加维度可以减少过拟合。

  • 泰勒近似

线性化是我们理解非线性系统最重要的工具之一。我们将涵盖神经网络的一阶泰勒近似(梯度,方向导数)和二阶近似(Hessian)。我们将看到如何用雅可比向量乘积有效地计算它们。我们将使用Hessian诊断缓慢收敛和解释网络预测。

  • 度量

度量给出了流形上距离的一个局部概念。在许多情况下,两个神经网络之间的距离可以更有效地定义为它们所代表的函数之间的距离,而不是权重向量之间的距离。这就引出了一个重要的优化工具,叫做自然梯度。

  • 二阶优化

我们从几个角度来激励神经网络的二阶优化:最小化二阶泰勒近似、预处理、不变性和近端优化。我们将看到如何使用共轭梯度或克罗内克因子近似来近似二阶更新。

  • 自适应梯度法、归一化和权值衰减

我们看看已经成为神经网络训练的主要内容的三个算法特征。我们试图理解它们对动力学的影响,并找出构建深度学习系统的一些陷阱。

  • 无穷极限与过度参数化
  • Stochastic Optimization and Scaling
  • Bayesian Inference and Implicit Regularization
  • Dynamical Systems and Momentum
  • Differential Games
  • Bilevel Optimization
成为VIP会员查看完整内容
1
38

基于最近关于非凸优化算法在训练深度神经网络和数据分析中的其他优化问题中的应用,我们对非凸优化算法全局性能保证的最新理论成果进行了综述。我们从经典的论证开始,证明一般的非凸问题不可能在合理的时间内得到有效的解决。然后,我们给出了一个可以通过尽可能多地利用问题的结构来寻找全局最优解的问题列表。处理非凸性的另一种方法是将寻找全局最小值的目标放宽到寻找一个平稳点或局部最小值。对于这种设置,我们首先给出确定性一阶方法收敛速度的已知结果,然后是最优随机和随机梯度格式的一般理论分析,以及随机一阶方法的概述。然后,我们讨论了相当一般的一类非凸问题,如α-弱拟凸函数的极小化和满足Polyak- Lojasiewicz条件的函数,这些函数仍然可以得到一阶方法的理论收敛保证。然后我们考虑非凸优化问题的高阶、零阶/无导数方法及其收敛速度。

成为VIP会员查看完整内容
0
55

【导读】本文章从深度神经网络(DNN)入手,对深度学习(DL)领域的研究进展进行了简要的综述。内容包括:卷积神经网络(CNN)、循环神经网络(RNN)、长时记忆(LSTM)和门控递归单元(GRU)、自动编码器(AE)、深度信念网络(DBN)、生成对抗性网络(GAN)和深度强化学习(DRL)。

近年来,深度学习在各个应用领域都取得了巨大的成功。这个机器学习的新领域发展迅速,已经应用于大多数传统的应用领域,以及一些提供更多机会的新领域。针对不同类型的学习,提出了不同的学习方法,包括监督学习、半监督学习和非监督学习。

实验结果表明,与传统机器学习方法相比,深度学习在图像处理、计算机视觉、语音识别、机器翻译、艺术、医学成像、医学信息处理、机器人与控制、生物信息学、自然语言处理、网络安全等领域具有最先进的性能。

本研究从深度神经网络(DNN)入手,对深度学习(DL)领域的研究进展进行了简要的综述。研究内容包括:卷积神经网络(CNN)、循环神经网络(RNN)、长时记忆(LSTM)和门控递归单元(GRU)、自动编码器(AE)、深度信念网络(DBN)、生成对抗性网络(GAN)和深度强化学习(DRL)。

此外,我们还讨论了最近的发展,例如基于这些DL方法的高级变体DL技术。这项工作考虑了2012年以后发表的大部分论文,当时深度学习的历史开始了。此外,本文中还包括了在不同应用领域探索和评价的DL方法。我们还包括最近开发的框架、SDKs和基准数据集,用于实施和评估深度学习方法。目前有一些研究已经发表,例如使用神经网络和一个关于强化学习(RL)的综述。然而,这些论文还没有讨论大规模深度学习模型的个别高级训练技术和最近发展起来的生成模型的方法。

关键词:卷积神经网络(CNN);循环神经网络(RNN);自动编码器(AE);受限Boltzmann机器(RBM);深度信念网络(DBN);生成对抗性网络(GAN);深度强化学习(DRL);迁移学习。

成为VIP会员查看完整内容
0
65

在复杂的以人为中心的系统中,每天的决策都具有决策相关信息不完全的特点。现有决策理论的主要问题是,它们没有能力处理概率和事件不精确的情况。在这本书中,我们描述了一个新的理论的决策与不完全的信息。其目的是将决策分析和经济行为的基础从领域二价逻辑转向领域模糊逻辑和Z约束,从行为决策的外部建模转向组合状态的框架。

这本书将有助于在模糊逻辑,决策科学,人工智能,数学经济学,和计算经济学的专业人员,学者,经理和研究生。

读者:专业人士,学者,管理者和研究生在模糊逻辑,决策科学,人工智能,数学经济学,和计算经济学。

成为VIP会员查看完整内容
0
177

【导读】纽约大学开设的离散数学课程,这是一门运用于计算机科学的离散数学课程。这只是一门一学期的课程,所以有很多话题是它没有涉及到的,或者没有深入讨论。但我们希望这能给你一个技能的基础,你可以在你需要的时候建立,特别是给你一点数学的成熟——对数学是什么和数学定义和证明如何工作的基本理解。

成为VIP会员查看完整内容
0
85

本备忘单是机器学习手册的浓缩版,包含了许多关于机器学习的经典方程和图表,旨在帮助您快速回忆起机器学习中的知识和思想。

这个备忘单有两个显著的优点:

  1. 清晰的符号。数学公式使用了许多令人困惑的符号。例如,X可以是一个集合,一个随机变量,或者一个矩阵。这是非常混乱的,使读者很难理解数学公式的意义。本备忘单试图规范符号的使用,所有符号都有明确的预先定义,请参见小节。

  2. 更少的思维跳跃。在许多机器学习的书籍中,作者省略了数学证明过程中的一些中间步骤,这可能会节省一些空间,但是会给读者理解这个公式带来困难,读者会在中间迷失。

成为VIP会员查看完整内容
0
209
小贴士
相关VIP内容
专知会员服务
58+阅读 · 8月4日
专知会员服务
162+阅读 · 2月22日
专知会员服务
36+阅读 · 2月14日
专知会员服务
55+阅读 · 2020年12月18日
专知会员服务
177+阅读 · 2020年6月24日
专知会员服务
85+阅读 · 2020年5月26日
机器学习速查手册,135页pdf
专知会员服务
209+阅读 · 2020年3月15日
相关论文
Reversible Quantum Process Algebra with Guards
Yong Wang
0+阅读 · 8月5日
Yong Wang
0+阅读 · 8月5日
Xia Hu,Lingyang Chu,Jian Pei,Weiqing Liu,Jiang Bian
18+阅读 · 3月8日
Joseph Y. Halpern
5+阅读 · 2019年9月30日
Generalization and Regularization in DQN
Jesse Farebrother,Marlos C. Machado,Michael Bowling
5+阅读 · 2019年1月30日
Brett Daley,Christopher Amato
4+阅读 · 2018年10月23日
Antoine J. -P. Tixier
10+阅读 · 2018年8月30日
Chiyuan Zhang,Oriol Vinyals,Remi Munos,Samy Bengio
7+阅读 · 2018年4月20日
Ladislav Rampasek,Daniel Hidru,Petr Smirnov,Benjamin Haibe-Kains,Anna Goldenberg
3+阅读 · 2017年7月6日
Top