本文介绍了一阶优化方法及其在机器学习中的应用。这不是一门关于机器学习的课程(特别是它不涉及建模和统计方面的考虑),它侧重于使用和分析可以扩展到具有大量参数的大型数据集和模型的廉价方法。这些方法都是围绕“梯度下降”的概念而变化的,因此梯度的计算起着主要的作用。本课程包括最优化问题的基本理论性质(特别是凸分析和一阶微分学)、梯度下降法、随机梯度法、自动微分、浅层和深层网络。

成为VIP会员查看完整内容
0
75

相关内容

【导读】《机器学习:贝叶斯和优化的视角》是雅典大学信息学和通信系的教授Sergios Theodoridis的经典著作,对所有主要的机器学习方法和新研究趋势进行了深入探索,涵盖概率和确定性方法以及贝叶斯推断方法。非常值得学习。

Sergios Theodoridis教授是雅典大学信息学和通信系的教授,香港中文大学(深圳)客座教授。他的研究领域是信号处理和机器学习。他的研究兴趣是自适应算法,分布式和稀疏性感知学习,机器学习和模式识别,生物医学应用中的信号处理和学习以及音频处理和检索。

他的几本著作与合著蜚声海内外,包括《机器学习:贝叶斯和优化的视角》以及畅销书籍《模式识别》。他是2017年EURASIP Athanasios Papoulis奖和2014年EURASIP Meritorious Service奖的获得者。

http://cgi.di.uoa.gr/~stheodor/

机器学习:贝叶斯和优化方法

本书对所有主要的机器学习方法和新研究趋势进行了深入探索,涵盖概率和确定性方法以及贝叶斯推断方法。其中,经典方法包括平均/小二乘滤波、卡尔曼滤波、随机逼近和在线学习、贝叶斯分类、决策树、逻辑回归和提升方法等,新趋势包括稀疏、凸分析与优化、在线分布式算法、RKH空间学习、贝叶斯推断、图模型与隐马尔可夫模型、粒子滤波、深度学习、字典学习和潜变量建模等。全书构建了一套明晰的机器学习知识体系,各章内容相对独立,物理推理、数学建模和算法实现精准且细致,并辅以应用实例和习题。本书适合该领域的科研人员和工程师阅读,也适合学习模式识别、统计/自适应信号处理和深度学习等课程的学生参考。

成为VIP会员查看完整内容
0
191

本文介绍了一阶优化方法及其在机器学习中的应用。这不是一门关于机器学习的课程(特别是它不涉及建模和统计方面的考虑),它侧重于使用和分析可以扩展到具有大量参数的大型数据集和模型的廉价方法。这些方法都是围绕“梯度下降”的概念而变化的,因此梯度的计算起着主要的作用。本课程包括最优化问题的基本理论性质(特别是凸分析和一阶微分学)、梯度下降法、随机梯度法、自动微分、浅层和深层网络。

成为VIP会员查看完整内容
0
91

内容介绍:

计算机科学正在发展,以利用新的硬件,如GPU、TPUs、CPU和大型的集群。许多子领域,如机器学习和优化,已经调整了它们的算法来处理这样的集群。

主题包括分布式和并行算法:优化、数值线性代数、机器学习、图形分析、流形算法,以及其他在集群中难以扩展的问题。该类将重点分析程序,并使用Apache Spark和TensorFlow实现一些程序。

本课程将分为两部分:首先,介绍并行算法的基础知识和在单多核机器上的运行时分析。其次,我们将介绍在集群机器上运行的分布式算法。

成为VIP会员查看完整内容
0
53

本备忘单是机器学习手册的浓缩版,包含了许多关于机器学习的经典方程和图表,旨在帮助您快速回忆起机器学习中的知识和思想。

这个备忘单有两个显著的优点:

  1. 清晰的符号。数学公式使用了许多令人困惑的符号。例如,X可以是一个集合,一个随机变量,或者一个矩阵。这是非常混乱的,使读者很难理解数学公式的意义。本备忘单试图规范符号的使用,所有符号都有明确的预先定义,请参见小节。

  2. 更少的思维跳跃。在许多机器学习的书籍中,作者省略了数学证明过程中的一些中间步骤,这可能会节省一些空间,但是会给读者理解这个公式带来困难,读者会在中间迷失。

成为VIP会员查看完整内容
0
167

题目: Optimization for deep learning: theory and algorithms

摘要:

什么时候以及为什么能够成功地训练神经网络?本文概述了神经网络的优化算法和训练理论。首先,我们讨论了梯度爆炸、消失问题,然后讨论了实际的解决方案,包括初始化和归一化方法。其次,我们回顾了用于训练神经网络的一般优化方法,如SGD、自适应梯度方法和分布式方法以及这些算法的理论结果。第三,我们回顾了现有的关于神经网络训练的全局问题的研究,包括局部极值的结果、模式连接、无限宽度分析。

作者:

Ruoyu Sun是伊利诺伊大学厄本那香槟分校 (UIUC)电子与计算机工程系的助理教授,研究优化和机器学习,尤其是深度学习。最近,一直在研究深度学习中的最优化,例如神经网络,GANs和Adam。

摘要

什么时候以及为什么能够成功地训练神经网络?本文概述了神经网络的优化算法和训练理论。首先,我们讨论了梯度爆炸/消失问题和更一般的不期望谱问题,然后讨论了实际的解决方案,包括仔细的初始化和归一化方法。其次,我们回顾了用于训练神经网络的一般优化方法,如SGD、自适应梯度方法和分布式方法,以及这些算法的现有理论结果。第三,我们回顾了现有的关于神经网络训练的全局问题的研究,包括局部极值的结果、模式连接、彩票假设和无限宽度分析。

  1. 概述

本文的一个主要主题是了解成功训练神经网络的实际组成部分,以及可能导致训练失败的因素。假设你在1980年试图用神经网络解决一个图像分类问题。如果你想从头开始训练一个神经网络,很可能你最初的几次尝试都没有得到合理的结果。什么本质的变化使算法能有效进行?在高层次上,你需要三样东西(除了强大的硬件): 合适的神经网络、合适的训练算法和合适的训练技巧。

合适的神经网络。这包括神经结构和激活功能。对于神经结构,您可能想要用一个至少有5层和足够神经元的卷积网络来替换一个完全连接的网络。为了获得更好的性能,您可能希望将深度增加到20甚至100,并添加跳跃skip连接。对于激活函数,一个好的起点是ReLU激活,但是使用tanh或swish激活也是合理的。

训练算法。一个大的选择是使用随机版本的梯度下降(SGD)并坚持它。良好调整的步长足够好,而动量和自适应步长可以提供额外的好处。

训练技巧。适当的初始化对于算法的训练是非常重要的。要训练一个超过10层的网络,通常需要两个额外的技巧:添加规范化层和添加跳过连接。

哪些设计选择是必要的?目前我们已经了解了一些设计选择,包括初始化策略、规范化方法、跳过连接、参数化(大宽度)和SGD,如图1所示。我们将优化优势大致分为三部分: 控制Lipschitz常数、更快的收敛速度和更好的landscape。还有许多其他的设计选择是很难理解的,尤其是神经架构。无论如何,似乎不可能理解这个复杂系统的每个部分,目前的理解已经可以提供一些有用的见解。

图1: 成功训练具有理论理解的神经网络的几个主要设计选择。它们对算法收敛的三个方面有影响:使收敛成为可能、更快的收敛和更好的全局解。这三个方面有一定的联系,只是一个粗略的分类。请注意,还有其他一些重要的设计选择,特别是神经体系结构,它们在理论上还没有被理解,因此在该图中被省略了。还有其他好处,比如泛化,也被忽略了。

为了使综述调查简单,我们将重点研究前馈神经网络的监督学习问题。我们将不讨论更复杂的公式,如GANs(生成对抗网络)和深度强化学习,也不讨论更复杂的体系结构,如RNN(递归神经网络)、attention和Capsule。在更广泛的背景下,监督学习理论至少包含表示、优化和泛化(参见1.1节),我们不详细讨论表示和泛化。一个主要的目标是理解神经网络结构(由许多变量连接的参数化)如何影响优化算法的设计和分析,这可能会超越监督学习。

这篇文章是为那些对神经网络优化的理论理解感兴趣的研究人员写的。关于优化方法和基础理论的先验知识将非常有帮助(参见,[24,200,29]的准备)。现有的关于深度学习优化的调查主要针对一般的机器学习受众,如Goodfellow等[76]的第8章。这些综述通常不深入讨论优化的理论方面。相反,在这篇文章中,我们更多地强调理论结果,同时努力使它对非理论读者具有可访问性。如果可能的话,我们将提供一些简单的例子来说明这种直觉,我们将不解释定理的细节。

1.1 大景观:分解理论

分解是发展理论的一个有用且流行的元方法。首先简要回顾了优化在机器学习中的作用,然后讨论了如何分解深度学习的优化理论。

表示、优化和泛化。监督学习的目标是根据观察到的样本找到一个近似底层函数的函数。第一步是找到一个丰富的函数家族(如神经网络),可以代表理想的函数。第二步是通过最小化某个损失函数来识别函数的参数。第三步是使用第二步中找到的函数对不可见的测试数据进行预测,产生的错误称为测试错误。测试误差可以分解为表示误差、优化误差和泛化误差,分别对应这三个步骤引起的误差。

在机器学习中,表示、优化和泛化这三个学科经常被分开研究。例如,在研究一类函数的表示能力时,我们往往不关心优化问题能否很好地解决。在研究泛化误差时,我们通常假设已经找到了全局最优值(概化调查见[95])。类似地,在研究优化属性时,我们通常不明确地考虑泛化误差(但有时我们假定表示误差为零)。

优化问题的分解。深度学习的优化问题比较复杂,需要进一步分解。优化的发展可以分为三个步骤。第一步是使算法开始运行,并收敛到一个合理的解,如一个固定点。第二步是使算法尽快收敛。第三步是确保算法收敛到一个低目标值的解(如全局极小值)。要获得良好的测试精度,还有一个额外的步骤,但是这超出了优化的范围。简而言之,我们将优化问题分为三个部分: 收敛性、收敛速度和全局质量。

大部分工作的回顾分为三个部分: 第四部分,第五部分和第六部分。大致说来,每个部分主要是由优化理论的三个部分之一。然而,这种划分并不精确,因为这三个部分之间的边界是模糊的。例如,第4节中讨论的一些技术也可以提高收敛速度,第6节中的一些结果解决了收敛问题和全局问题。划分的另一个原因是它们代表了神经网络优化的三个相当独立的子领域,并且在一定程度上是独立发展的。

1.2 文章结构

这篇文章的结构如下。在第二节中,我们提出了一个典型的监督学习神经网络优化问题。在第三节中,我们提出了反向传播(BP),并分析了将经典收敛分析应用于神经网络梯度下降的困难。在第四节中,我们将讨论训练神经网络的神经网络特定技巧,以及一些基本理论。这些是神经网络相关的方法,打开了神经网络的黑盒子。特别地,我们讨论了一个主要的挑战,称为梯度爆炸/消失和一个更普遍的挑战,控制频谱,并回顾了主要的解决方案,如仔细的初始化和归一化方法。在第五节中,我们讨论了将神经网络视为一般非凸优化问题的泛型算法设计。特别地,我们回顾了SGD的各种学习速率调度、自适应梯度方法、大规模分布式训练、二阶方法以及现有的收敛和迭代复杂度结果。在第六节中,我们回顾了神经网络的全局优化研究,包括全局景观、模式连接、彩票假设和无限宽度分析(如神经正切核)。

更多请下载论文查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

后台回复“

成为VIP会员查看完整内容
0
84

主题: Financial Machine Learning

课程目录:

  • 介绍
  • 端到端的ML项目
  • 分类
  • 线性模型
  • 决策树
  • 集成
  • 主要组成
  • 神经网络
成为VIP会员查看完整内容
0
57

本课程涵盖了机器学习和统计建模方面的广泛主题。 虽然将涵盖数学方法和理论方面,但主要目标是为学生提供解决实际中发现的数据科学问题所需的工具和原理。 本课程还可以作为基础,以提供更多专业课程和进一步的独立学习。 本课程是数据科学中心数据科学硕士学位课程核心课程的一部分。 此类旨在作为DS-GA-1001数据科学概论的延续,其中涵盖了一些重要的基础数据科学主题,而这些主题可能未在此DS-GA类中明确涵盖。

课程大纲

  • Week 1:统计学习理论框架
  • Week 2:随机梯度下降
  • Week 3:正则化,Lasso, 和 Elastic网,次梯度方法
  • Week 4:损失函数,SVM,代表定理
  • Week 5:核方法
  • Week 6:最大似然,条件概率
  • Week 7:期中
  • Week 8:贝叶斯方法
  • Week 9:贝叶斯条件概率,多分类
  • Week 10:分类和回归树
  • Week 11:bagging和随机森林,梯度提升
  • Week 12:K-Means,高斯混合模型
  • Week 13:EM算法
  • Week 14:神经网络,反向传播
成为VIP会员查看完整内容
kechengDS-GA1003-Spring2019.pdf
0
34

This paper surveys the machine learning literature and presents machine learning as optimization models. Such models can benefit from the advancement of numerical optimization techniques which have already played a distinctive role in several machine learning settings. Particularly, mathematical optimization models are presented for commonly used machine learning approaches for regression, classification, clustering, and deep neural networks as well new emerging applications in machine teaching and empirical model learning. The strengths and the shortcomings of these models are discussed and potential research directions are highlighted.

0
7
下载
预览
小贴士
相关VIP内容
相关资讯
机器学习中的最优化算法总结
人工智能前沿讲习班
11+阅读 · 2019年3月22日
Machine Learning:十大机器学习算法
开源中国
9+阅读 · 2018年3月1日
干货|掌握机器学习数学基础之优化[1](重点知识)
机器学习研究会
6+阅读 · 2017年11月19日
资源 | CMU统计机器学习2017春季课程:研究生水平
机器之心
8+阅读 · 2017年10月30日
相关论文
Joost Verbraeken,Matthijs Wolting,Jonathan Katzy,Jeroen Kloppenburg,Tim Verbelen,Jan S. Rellermeyer
25+阅读 · 2019年12月20日
Optimization for deep learning: theory and algorithms
Ruoyu Sun
79+阅读 · 2019年12月19日
Bernhard Schölkopf
9+阅读 · 2019年11月24日
Label Embedded Dictionary Learning for Image Classification
Shuai Shao,Yan-Jiang Wang,Bao-Di Liu,Weifeng Liu
4+阅读 · 2019年3月7日
Taking Human out of Learning Applications: A Survey on Automated Machine Learning
Quanming Yao,Mengshuo Wang,Yuqiang Chen,Wenyuan Dai,Hu Yi-Qi,Li Yu-Feng,Tu Wei-Wei,Yang Qiang,Yu Yang
10+阅读 · 2019年1月17日
Claudio Gambella,Bissan Ghaddar,Joe Naoum-Sawaya
7+阅读 · 2019年1月16日
Meta-Transfer Learning for Few-Shot Learning
Qianru Sun,Yaoyao Liu,Tat-Seng Chua,Bernt Schiele
5+阅读 · 2018年12月6日
Antoine J. -P. Tixier
10+阅读 · 2018年8月30日
Luke Metz,Niru Maheswaranathan,Brian Cheung,Jascha Sohl-Dickstein
5+阅读 · 2018年5月23日
Jonas Gehring,Michael Auli,David Grangier,Denis Yarats,Yann N. Dauphin
3+阅读 · 2017年7月25日
Top