【MIT-Kenji博士论文】深度学习中的优化与可扩展性，260页pdf

2022 年 4 月 3 日 专知

深度神经网络在计算机视觉、机器学习和人工智能等许多领域都取得了显著的经验成功。随着经验上的成功，深度学习在理论上已被证明在表达能力方面具有吸引力。即具有一个隐层的神经网络可以近似任意连续函数，而具有更深层次的神经网络可以近似具有较少参数的特定类函数。表达理论指出，在一定规模的神经网络中，存在近似目标函数的最优参数向量。然而，在神经网络优化过程中，表达理论并不能保证能够有效地找到这样的最优向量。优化是深度学习的关键步骤之一，因为对数据的学习是通过优化来实现的，即对深度神经网络的参数进行优化，使网络与数据保持一致的过程。这个过程通常需要非凸优化，这对于一般的高维问题来说是不可扩展的。事实上，一般来说，神经网络的优化是不可扩展的，除非对其架构做额外的假设。

本文通过研究可扩展性中的一些基本瓶颈，如次最优局部极小值和鞍点，研究了各种深度神经网络体系结构的非凸优化问题。特别地，对于深度神经网络，我们给出了局部极小值和临界点的各种保证，以及梯度下降找到的点。证明了在深度神经网络非凸优化中，对实际度进行适度的过参数化可以保证梯度下降找到全局最小值。此外，即使没有过度参数化，我们表明，无论是理论还是经验，增加参数的数量，改善临界点和局部极小值的值向全局最小值。我们还证明了残差神经网络局部极小值的理论保证。此外，本文提出了一个统一的理论来分析这些特定架构之外的各种深度神经网络的临界点和局部极小值。这些结果表明，尽管在理论的最坏情况和最坏的架构中存在可伸缩性问题，但我们可以避免这个问题，并在实践中对各种有用架构的大型问题进行良好的可扩展性。

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“OSDL” 就可以获取《【MIT-Kenji博士论文】深度学习中的优化与可扩展性，260页pdf》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取70000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取70000+AI主题知识资料

登录查看更多

相关内容

神经网络

关注 5910

人工神经网络（Artificial Neural Network，即ANN ），是20世纪80 年代以来人工智能领域兴起的研究热点。它从信息处理角度对人脑神经元网络进行抽象，建立某种简单模型，按不同的连接方式组成不同的网络。在工程与学术界也常直接简称为神经网络或类神经网络。神经网络是一种运算模型，由大量的节点（或称神经元）之间相互联接构成。每个节点代表一种特定的输出函数，称为激励函数（activation function）。每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重，这相当于人工神经网络的记忆。网络的输出则依网络的连接方式，权重值和激励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近，也可能是对一种逻辑策略的表达。最近十多年来，人工神经网络的研究工作不断深入，已经取得了很大的进展，其在模式识别、智能机器人、自动控制、预测估计、生物、医学、经济等领域已成功地解决了许多现代计算机难以解决的实际问题，表现出了良好的智能特性。

【伯利克博士论文】深度学习应用的算法、硬件和调度的协同设计，161页pdf

专知会员服务

75+阅读 · 2021年8月18日

【斯坦福博士论文】深度学习医学图像解译，207页pdf

专知会员服务

107+阅读 · 2021年7月17日

【哥伦比亚大学博士论文】深度概率图建模147页pdf

专知会员服务

90+阅读 · 2021年4月27日

「深度学习:一种统计视角」，伯克利&斯坦福89页pdf综述论文

专知会员服务

73+阅读 · 2021年3月20日