【MIT-Kenji博士论文】深度学习中的优化与可扩展性,260页pdf

2022 年 4 月 3 日 专知


深度神经网络在计算机视觉、机器学习和人工智能等许多领域都取得了显著的经验成功。随着经验上的成功,深度学习在理论上已被证明在表达能力方面具有吸引力。即具有一个隐层的神经网络可以近似任意连续函数,而具有更深层次的神经网络可以近似具有较少参数的特定类函数。表达理论指出,在一定规模的神经网络中,存在近似目标函数的最优参数向量。然而,在神经网络优化过程中,表达理论并不能保证能够有效地找到这样的最优向量。优化是深度学习的关键步骤之一,因为对数据的学习是通过优化来实现的,即对深度神经网络的参数进行优化,使网络与数据保持一致的过程。这个过程通常需要非凸优化,这对于一般的高维问题来说是不可扩展的。事实上,一般来说,神经网络的优化是不可扩展的,除非对其架构做额外的假设。


本文通过研究可扩展性中的一些基本瓶颈,如次最优局部极小值和鞍点,研究了各种深度神经网络体系结构的非凸优化问题。特别地,对于深度神经网络,我们给出了局部极小值和临界点的各种保证,以及梯度下降找到的点。证明了在深度神经网络非凸优化中,对实际度进行适度的过参数化可以保证梯度下降找到全局最小值。此外,即使没有过度参数化,我们表明,无论是理论还是经验,增加参数的数量,改善临界点和局部极小值的值向全局最小值。我们还证明了残差神经网络局部极小值的理论保证。此外,本文提出了一个统一的理论来分析这些特定架构之外的各种深度神经网络的临界点和局部极小值。这些结果表明,尽管在理论的最坏情况和最坏的架构中存在可伸缩性问题,但我们可以避免这个问题,并在实践中对各种有用架构的大型问题进行良好的可扩展性。



专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“OSDL” 就可以获取【MIT-Kenji博士论文】深度学习中的优化与可扩展性,260页pdf》专知下载链接

专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取70000+AI(AI与军事、医药、公安等)主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取70000+AI主题知识资料
登录查看更多
6

相关内容

人工神经网络(Artificial Neural Network,即ANN ),是20世纪80 年代以来人工智能领域兴起的研究热点。它从信息处理角度对人脑神经元网络进行抽象, 建立某种简单模型,按不同的连接方式组成不同的网络。在工程与学术界也常直接简称为神经网络或类神经网络。神经网络是一种运算模型,由大量的节点(或称神经元)之间相互联接构成。每个节点代表一种特定的输出函数,称为激励函数(activation function)。每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重,这相当于人工神经网络的记忆。网络的输出则依网络的连接方式,权重值和激励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近,也可能是对一种逻辑策略的表达。 最近十多年来,人工神经网络的研究工作不断深入,已经取得了很大的进展,其在模式识别、智能机器人、自动控制、预测估计、生物、医学、经济等领域已成功地解决了许多现代计算机难以解决的实际问题,表现出了良好的智能特性。
专知会员服务
104+阅读 · 2021年7月17日
【哥伦比亚大学博士论文】深度概率图建模147页pdf
专知会员服务
88+阅读 · 2021年4月27日
最新《非凸优化理论》进展书册,79页pdf
专知会员服务
108+阅读 · 2020年12月18日
【牛津大学博士论文】解释深度神经网络,134页pdf
专知会员服务
216+阅读 · 2020年10月8日
专知会员服务
43+阅读 · 2020年9月25日
非凸优化与统计学,89页ppt,普林斯顿Yuxin Chen博士
专知会员服务
102+阅读 · 2020年6月28日
机器学习速查手册,135页pdf
专知会员服务
338+阅读 · 2020年3月15日
神经网络的基础数学,95页pdf
专知
25+阅读 · 2022年1月23日
【UMASS博士论文】几何表示学习,162页pdf
专知
1+阅读 · 2021年4月11日
最新《图嵌入组合优化》综述论文,40页pdf
【干货书】计算机科学离散数学,627页pdf
专知
60+阅读 · 2020年8月31日
【新书册】贝叶斯神经网络,41页pdf
专知
27+阅读 · 2020年6月3日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
Residual Mixture of Experts
Arxiv
0+阅读 · 2022年4月20日
Arxiv
0+阅读 · 2022年4月17日
Arxiv
0+阅读 · 2022年4月7日
Arxiv
23+阅读 · 2021年3月4日
Arxiv
136+阅读 · 2018年10月8日
VIP会员
相关VIP内容
专知会员服务
104+阅读 · 2021年7月17日
【哥伦比亚大学博士论文】深度概率图建模147页pdf
专知会员服务
88+阅读 · 2021年4月27日
最新《非凸优化理论》进展书册,79页pdf
专知会员服务
108+阅读 · 2020年12月18日
【牛津大学博士论文】解释深度神经网络,134页pdf
专知会员服务
216+阅读 · 2020年10月8日
专知会员服务
43+阅读 · 2020年9月25日
非凸优化与统计学,89页ppt,普林斯顿Yuxin Chen博士
专知会员服务
102+阅读 · 2020年6月28日
机器学习速查手册,135页pdf
专知会员服务
338+阅读 · 2020年3月15日
相关基金
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员