基于最近关于非凸优化算法在训练深度神经网络和数据分析中的其他优化问题中的应用,我们对非凸优化算法全局性能保证的最新理论成果进行了综述。我们从经典的论证开始,证明一般的非凸问题不可能在合理的时间内得到有效的解决。然后,我们给出了一个可以通过尽可能多地利用问题的结构来寻找全局最优解的问题列表。处理非凸性的另一种方法是将寻找全局最小值的目标放宽到寻找一个平稳点或局部最小值。对于这种设置,我们首先给出确定性一阶方法收敛速度的已知结果,然后是最优随机和随机梯度格式的一般理论分析,以及随机一阶方法的概述。然后,我们讨论了相当一般的一类非凸问题,如α-弱拟凸函数的极小化和满足Polyak- Lojasiewicz条件的函数,这些函数仍然可以得到一阶方法的理论收敛保证。然后我们考虑非凸优化问题的高阶、零阶/无导数方法及其收敛速度。

成为VIP会员查看完整内容
0
59

相关内容

机器学习是数学统计和计算机科学交叉的跨学科领域。机器学习研究统计模型和算法,以从经验数据中得出预测因子或有意义的模式。机器学习技术主要应用于搜索引擎、语音识别和自然语言处理、图像检测、机器人技术等领域。在我们的课程中,我们将讨论以下问题:学习的数学模型是什么?如何量化一个学习问题的难度/难度/复杂性?如何选择学习模型和学习算法?如何衡量机器学习的成功?

我们的课程大纲:

  1. 监督学习,非监督学习,强化学习。

  2. 机器学习泛化能力

  3. 支持向量机,核机

  4. 神经网络和深度学习

成为VIP会员查看完整内容
0
48

这是我2004年,2006年和2009年在斯坦福大学教授的概率理论博士课程的讲义。本课程的目标是为斯坦福大学数学和统计学系的博士生做概率论研究做准备。更广泛地说,文本的目标是帮助读者掌握概率论的数学基础和在这一领域中证明定理最常用的技术。然后将此应用于随机过程的最基本类的严格研究。

为此,我们在第一章中介绍了测度与积分理论中的相关元素,即事件的概率空间与格-代数、作为可测函数的随机变量、它们的期望作为相应的勒贝格积分,以及独立性的重要概念。

利用这些元素,我们在第二章中研究了随机变量收敛的各种概念,并推导了大数的弱定律和强定律。

第三章讨论了弱收敛的理论、分布函数和特征函数的相关概念以及中心极限定理和泊松近似的两个重要特例。

基于第一章的框架,我们在第四章讨论了条件期望的定义、存在性和性质,以及相关的规则条件概率分布。

第五章讨论了过滤、信息在时间上的级数的数学概念以及相应的停止时间。关于后者的结果是作为一组称为鞅的随机过程研究的副产品得到的。讨论了鞅表示、极大不等式、收敛定理及其各种应用。为了更清晰和更容易的表述,我们在这里集中讨论离散时间的设置来推迟与第九章相对应的连续时间。

第六章简要介绍了马尔可夫链的理论,概率论的核心是一个庞大的主题,许多教科书都致力于此。我们通过研究一些有趣的特殊情况来说明这类过程的一些有趣的数学性质。

在第七章中,我们简要介绍遍历理论,将注意力限制在离散时间随机过程的应用上。我们定义了平稳过程和遍历过程的概念,推导了Birkhoff和Kingman的经典定理,并强调了该理论的许多有用应用中的少数几个。

第八章建立了以连续时间参数为指标的右连续随机过程的研究框架,引入了高斯过程族,并严格构造了布朗运动为连续样本路径和零均值平稳独立增量的高斯过程。

第九章将我们先前对鞅和强马尔可夫过程的处理扩展到连续时间的设定,强调了右连续滤波的作用。然后在布朗运动和马尔可夫跳跃过程的背景下说明了这类过程的数学结构。

在此基础上,在第十章中,我们利用不变性原理重新构造了布朗运动作为某些重新标定的随机游动的极限。进一步研究了其样本路径的丰富性质以及布朗运动在clt和迭代对数定律(简称lil)中的许多应用。

https://statweb.stanford.edu/~adembo/stat-310b/lnotes.pdf

成为VIP会员查看完整内容
0
81

Improved Analysis of Clipping Algorithms for Non-convex Optimization

梯度裁剪在深度神经网络训练中应用广泛,部分原因是其在解决梯度爆炸问题上的实用性。最近,Zhang等人[2020a]通过引入一个新的假设(L0, L1)-平滑性,证明剪切(随机)梯度下降(GD)比普通的GD/SGD收敛得更快,该假设表征了深度神经网络中通常遇到的梯度剧烈波动。然而,它们在问题相关参数上的迭代复杂性是相当悲观的,并且裁剪与其他关键技术(如动量加速)相结合的理论证明仍然缺乏。在本文中,我们提出了一个研究剪切算法的一般框架来弥补这一差距,该框架也考虑了动量法。我们提供了框架在确定性和随机设置的收敛性分析,并通过比较它们与现有的下界来证明我们的结果的紧密性。我们的结果表明,剪裁方法的效率不会退化,即使在景观的高度非光滑的区域。实验证明了基于裁剪的方法在深度学习任务中的优越性。

https://arxiv.org/abs/2010.02519

成为VIP会员查看完整内容
0
21

尽管它在机器学习中有重要的应用,非凸非凹目标的最小-最大优化仍然是难以实现的。不仅没有已知的一阶方法收敛甚至近似局部最小最大点,而且识别它们的计算复杂度也不为人所知。本文给出了非凸非凹目标和线性约束的约束最小-最优优化问题的计算复杂度,以及一阶方法的局限性。

https://arxiv.org/abs/2009.09623

成为VIP会员查看完整内容
0
26

摘要: 深度学习已经广泛应用到各个领域, 如计算机视觉和自然语言处理等, 并都取得了明显优于早期机器学习算法的效果. 在信息技术飞速发展的今天, 训练数据逐渐趋于大数据集, 深度神经网络不断趋于大型化, 导致训练越来越困难, 速度和精度都有待提升. 2013年, Ioffe等指出训练深度神经网络过程中存在一个严重问题: 中间协变量迁移(Internal covariate shift), 使网络训练过程对参数初值敏感、收敛速度变慢, 并提出了批归一化(Batch normalization, BN)方法, 以减少中间协变量迁移问题, 加快神经网络训练过程收敛速度. 目前很多网络都将BN作为一种加速网络训练的重要手段, 鉴于BN的应用价值, 本文系统综述了BN及其相关算法的研究进展. 首先对BN的原理进行了详细分析. BN虽然简单实用, 但也存在一些问题, 如依赖于小批量数据集的大小、训练和推理过程对数据处理方式不同等, 于是很多学者相继提出了BN的各种相关结构与算法, 本文对这些结构和算法的原理、优势和可以解决的主要问题进行了分析与归纳. 然后对BN在各个神经网络领域的应用方法进行了概括总结, 并且对其他常用于提升神经网络训练性能的手段进行了归纳. 最后进行了总结, 并对BN的未来研究方向进行了展望.

成为VIP会员查看完整内容
深度学习批归一化及其相关算法研究进展.pdf
0
41

非凸优化是机器学习中的基础问题,迭代优化方法缺乏理论支撑。普林斯顿大学助理教授Yuxin Chen一直从事非凸优化方面的研究,这份报告讲述了最近关于非凸统计估计的故事,它们强调了统计模型在实现有效的非凸优化中的重要作用。

Yuxin Chen 目前是普林斯顿大学电气工程系的助理教授。在加入普林斯顿大学之前,他是斯坦福大学统计系的博士后学者,并在斯坦福大学完成了电子工程博士学位。他的研究兴趣包括高维统计、凸与非凸优化、统计学习和信息论。他获得了2019年AFOSR青年研究员奖。

http://www.princeton.edu/~yc5/

非凸优化与统计学

近年来,利用非凸优化方法来解决统计估计和学习问题的研究工作层出不穷。由于非凸优化算法易受虚假局部极小值的影响,传统工作通常对其持悲观看法,而简单的迭代方法,如梯度下降法,在实践中已经取得了显著的成功。然而,直到最近,这些理论基础在很大程度上一直缺乏。这个报告展示了两个最近关于非凸统计估计的故事,它们强调了统计模型在实现有效的非凸优化中的重要作用。第一个故事是关于一个相位检索问题的随机初始化非凸方法:即使没有仔细的初始化,像梯度下降这样的简单算法也可以在对数迭代次数内找到全局解。第二个故事是关于非凸低秩矩阵补全的不确定性量化。我们在非凸估计的基础上开发了一个去偏估计器,使未知矩阵缺失项的置信区间能得到最优构造。所有这些都是通过一个“一留一出”的统计分析框架实现的,该框架在处理和解耦复杂的统计依赖方面非常强大。

https://events.seas.upenn.edu/event/priml-seminar-nonconvex-optimization-meets-statistics-a-few-recent-stories/

成为VIP会员查看完整内容
0
74

近年来,神经网络已成为分析复杂和抽象数据模型的有力工具。然而,它们的引入本质上增加了我们的不确定性,即分析的哪些特征是与模型相关的,哪些是由神经网络造成的。这意味着,神经网络的预测存在偏差,无法与数据的创建和观察的真实本质区分开来。为了尝试解决这些问题,我们讨论了贝叶斯神经网络:可以描述由网络引起的不确定性的神经网络。特别地,我们提出了贝叶斯统计框架,它允许我们根据观察某些数据的根深蒂固的随机性和我们缺乏关于如何创建和观察数据的知识的不确定性来对不确定性进行分类。在介绍这些技术时,我们展示了如何从原理上获得神经网络预测中的误差,并提供了描述这些误差的两种常用方法。我们还将描述这两种方法在实际应用时如何存在重大缺陷,并强调在使用神经网络时需要其他统计技术来真正进行推理。

成为VIP会员查看完整内容
0
116

生成对抗网络(GANs)是近年来受到广泛关注的一类新型的深度生成模型。GANs通过图像、音频和数据隐式地学习复杂的高维分布。然而,在GANs的训练中存在着主要的挑战。由于网络结构设计不当,使用目标函数和选择优化算法,导致模式崩溃,不收敛和不稳定。最近,为了解决这些挑战,一些更好地设计和优化GANs的解决方案已经被研究,基于重新设计的网络结构、新的目标函数和替代优化算法的技术。据我们所知,目前还没有一项综述特别侧重于这些解决办法的广泛和系统的发展。在这项研究中,我们进行了一个全面的综述,在GANs的设计和优化解决方案提出,以处理GANs的挑战。我们首先确定每个设计和优化技术中的关键研究问题,然后根据关键研究问题提出新的分类结构解决方案。根据分类,我们将详细讨论每个解决方案中提出的不同GANs变体及其关系。最后,在已有研究成果的基础上,提出了这一快速发展领域的研究方向。

https://arxiv.org/abs/2005.00065

概述

深度生成模型(DGMs),如受限玻尔兹曼机(RBMs)、深度信念网络(DBNs)、深度玻尔兹曼机(DBMs)、去噪自编码器(DAE)和生成随机网络(GSN),最近因捕获音频、图像或视频等丰富的底层分布和合成新样本而引起了广泛关注。这些深度生成模型采用基于马尔科夫链蒙特卡罗(MCMC)的[1][2]算法进行建模。基于MCMC的方法计算训练过程中梯度消失的对数似然梯度。这是由马尔科夫链产生的样本生成慢的主要原因,因为它不能足够快地在模式间混合。另一个生成模型,变分自动编码器(VAE),使用带有统计推理的深度学习来表示潜在空间[3]中的一个数据点,并在难以处理的概率计算的近似过程中体验复杂性。此外,这些生成模型是通过最大化训练数据可能性来训练的,其中基于概率的方法在许多数据集(如图像、视频)中经历了维数的诅咒。此外,在高维空间中,从马尔可夫链进行的采样是模糊的,计算速度慢且不准确。

为了解决上述问题,Goodfellow等人提出了生成对抗网(GANs),这是生成模型的另一种训练方法。GANs是一种新颖的深度生成模型,它利用反向传播来进行训练,以规避与MCMC训练相关的问题。GANs训练是生成模型和判别模型之间的极小极大零和博弈。GANs最近在生成逼真图像方面得到了广泛的关注,因为它避免了与最大似然学习[5]相关的困难。图1显示了GANs能力从2014年到2018年的一个进展示例。

GANs是一种结构化的概率模型,它由两个对立的模型组成:生成模型(Generator (G))用于捕获数据分布; 判别模型(Discriminator (D))用于估计生成数据的概率,以确定生成的数据是来自真实的数据分布,还是来自G的分布。D和G使用基于梯度的优化技术(同时梯度下降)玩一个两人极小极大对策,直到纳什均衡。G可以从真实分布中生成采样后的图像,而D无法区分这两组图像。为了更新G和D,由D通过计算两个分布之间的差异而产生的损失来接收梯度信号。我们可以说,GANs设计和优化的三个主要组成部分如下:(i) 网络结构,(ii) 目标(损失)函数,(iii)优化算法。

对多模态数据建模的任务,一个特定的输入可以与几个不同的正确和可接受的答案相关联。图2显示了具有多个自然图像流形(红色)的插图,结果由使用均方误差(MSE)的基本机器学习模型实现,该模型在像素空间(即,导致图像模糊)和GANs所获得的结果,从而驱动重构向自然图像流形方向发展。由于GANs的这一优势,它在许多领域得到了广泛的关注和应用。

GANs在一些实际任务中表现良好,例如图像生成[8][9]、视频生成[11]、域自适应[12]和图像超分辨率[10]等。传统的GANs虽然在很多方面都取得了成功,但是由于D和G训练的不平衡,使得GANs在训练中非常不稳定。D利用迅速饱和的逻辑损失。另外,如果D可以很容易的区分出真假图像,那么D的梯度就会消失,当D不能提供梯度时,G就会停止更新。近年来,对于模式崩溃问题的处理有了许多改进,因为G产生的样本基于少数模式,而不是整个数据空间。另一方面,引入了几个目标(损失)函数来最小化与传统GANs公式的差异。最后,提出了几种稳定训练的方法。

近年来,GANs在自然图像的制作方面取得了突出的成绩。然而,在GANs的训练中存在着主要的挑战。由于网络结构设计不当,使用目标函数和选择优化算法,导致模式崩溃,不收敛和不稳定。最近,为了解决这些挑战,一些更好地设计和优化GANs的解决方案已经被研究,基于重新设计的网络结构、新的目标函数和替代优化算法的技术。为了研究以连续一致的方式处理GANs挑战的GANs设计和优化解决方案,本综述提出了不同GANs解决方案的新分类。我们定义了分类法和子类寻址来构造当前最有前途的GANs研究领域的工作。通过将提出的GANs设计和优化方案分类,我们对其进行了系统的分析和讨论。我们还概述了可供研究人员进一步研究的主要未决问题。

本文贡献:

  • GAN新分类法。在本研究中,我们确定了每个设计和优化技术中的关键研究问题,并提出了一种新的分类法,根据关键研究问题来构造解决方案。我们提出的分类将有助于研究人员增强对当前处理GANs挑战的发展和未来研究方向的理解。

  • GAN全面的调研。根据分类法,我们提供了对各种解决方案的全面审查,以解决GANs面临的主要挑战。对于每一种类型的解决方案,我们都提供了GANs变体及其关系的详细描述和系统分析。但是,由于广泛的GANs应用,不同的GANs变体以不同的方式被制定、训练和评估,并且这些GANs之间的直接比较是复杂的。为此,我们进行了必要的比较,总结了相应的方法。他们提出了解决GANs挑战的新方案。这个调查可以作为了解、使用和开发各种实际应用程序的不同GANs方法的指南。

成为VIP会员查看完整内容
0
160

这本专著,我通过在线凸优化的现代视角介绍了在线学习的基本概念。这里,在线学习指的是在最坏情况假设下的后悔最小化框架。我提出了凸损失在线学习的一阶和二阶算法,在欧几里德和非欧几里德设置。所有的算法都清晰地呈现为在线镜像下降或跟随正则化及其变体的实例化。特别关注的是通过自适应和无参数在线学习算法来调整算法的参数和在无界域内学习的问题。非凸损失通过凸替代损失和随机化处理。本文还简要讨论了强盗设置问题,讨论了具有对抗性和随机性的多武装强盗问题。这些笔记不需要凸分析的先验知识,所有必需的数学工具都得到了严格的解释。此外,所有的证明都经过精心挑选,尽可能地简单和简短。

成为VIP会员查看完整内容
0
45

本备忘单是机器学习手册的浓缩版,包含了许多关于机器学习的经典方程和图表,旨在帮助您快速回忆起机器学习中的知识和思想。

这个备忘单有两个显著的优点:

  1. 清晰的符号。数学公式使用了许多令人困惑的符号。例如,X可以是一个集合,一个随机变量,或者一个矩阵。这是非常混乱的,使读者很难理解数学公式的意义。本备忘单试图规范符号的使用,所有符号都有明确的预先定义,请参见小节。

  2. 更少的思维跳跃。在许多机器学习的书籍中,作者省略了数学证明过程中的一些中间步骤,这可能会节省一些空间,但是会给读者理解这个公式带来困难,读者会在中间迷失。

成为VIP会员查看完整内容
0
218
小贴士
相关主题
相关VIP内容
专知会员服务
48+阅读 · 2021年2月7日
专知会员服务
81+阅读 · 2020年12月3日
专知会员服务
21+阅读 · 2020年10月11日
专知会员服务
26+阅读 · 2020年9月25日
深度学习批归一化及其相关算法研究进展
专知会员服务
41+阅读 · 2020年7月17日
专知会员服务
74+阅读 · 2020年6月28日
专知会员服务
116+阅读 · 2020年6月3日
机器学习速查手册,135页pdf
专知会员服务
218+阅读 · 2020年3月15日
相关资讯
【优博微展2019】李志泽:简单快速的机器学习优化方法
清华大学研究生教育
11+阅读 · 2019年10月8日
如何改进梯度下降算法
论智
5+阅读 · 2018年4月19日
绝对干货 | 随机梯度下降算法综述
菜鸟的机器学习
10+阅读 · 2017年10月30日
深度学习之DNN与反向传播算法
机器学习算法与Python学习
3+阅读 · 2017年9月11日
机器学习(7)之感知机python实现
机器学习算法与Python学习
4+阅读 · 2017年7月23日
相关论文
Coverage Probability of Distributed IRS Systems Under Spatially Correlated Channels
Anastasios Papazafeiropoulos,Cunhua Pan,Ahmet Elbir,Pandelis Kourtessis,Symeon Chatzinotas,John M. Senior
0+阅读 · 2021年2月18日
On the Convergence of Step Decay Step-Size for Stochastic Optimization
Xiaoyu Wang,Sindri Magnússon,Mikael Johansson
0+阅读 · 2021年2月18日
Dmitry Kovalev,Egor Shulgin,Peter Richtárik,Alexander Rogozin,Alexander Gasnikov
0+阅读 · 2021年2月18日
Louis C. Tiao,Aaron Klein,Matthias Seeger,Edwin V. Bonilla,Cedric Archambeau,Fabio Ramos
0+阅读 · 2021年2月17日
Joerg Drechsler
0+阅读 · 2021年2月17日
Zongxin Yang,Linchao Zhu,Yu Wu,Yi Yang
3+阅读 · 2020年3月27日
Parsimonious Bayesian deep networks
Mingyuan Zhou
3+阅读 · 2018年10月17日
Towards Understanding Regularization in Batch Normalization
Ping Luo,Xinjiang Wang,Wenqi Shao,Zhanglin Peng
4+阅读 · 2018年9月27日
Top
微信扫码咨询专知VIP会员