Over-parametrization has become a popular technique in deep learning. It is observed that by over-parametrization, a larger neural network needs a fewer training iterations than a smaller one to achieve a certain level of performance -- namely, over-parametrization leads to acceleration in optimization. However, despite that over-parametrization is widely used nowadays, little theory is available to explain the acceleration due to over-parametrization. In this paper, we propose understanding it by studying a simple problem first. Specifically, we consider the setting that there is a single teacher neuron with quadratic activation, where over-parametrization is realized by having multiple student neurons learn the data generated from the teacher neuron. We provably show that over-parametrization helps the iterate generated by gradient descent to enter the neighborhood of a global optimal solution that achieves zero testing error faster. On the other hand, we also point out an issue regarding the necessity of over-parametrization and study how the scaling of the output neurons affects the convergence time.


翻译:超平衡化已成为深层学习中流行的一种技术。人们注意到,通过超平衡化,一个更大的神经网络需要比较小的神经网络少一个培训迭代,以达到一定的性能水平,即超平衡化导致优化加速。然而,尽管目前广泛使用超平衡化,但很少有理论可以解释过度平衡造成的加速。在本文中,我们提议首先研究一个简单的问题来理解它。具体地说,我们考虑这样一种环境,即存在一个单一的教师神经神经元,带有二次平衡激活,通过让多个学生神经元学习从教师神经元中生成的数据来实现过度平衡化。我们可以肯定地表明,超平衡化有助于梯度下降产生的循环进入一个全球最佳解决方案的邻近地区,从而实现零测试误差。另一方面,我们还指出了一个关于过度平衡的必要性的问题,并研究输出神经元的扩大如何影响趋同时间。

0
下载
关闭预览

相关内容

【图与几何深度学习】Graph and geometric deep learning,49页ppt
专知会员服务
44+阅读 · 2020年12月18日
【2020新书】图机器学习,Graph-Powered Machine Learning
专知会员服务
342+阅读 · 2020年1月27日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
【CMU】机器学习导论课程(Introduction to Machine Learning)
专知会员服务
60+阅读 · 2019年8月26日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
22篇论文!增量学习/终生学习论文资源列表
专知
32+阅读 · 2018年12月27日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
0+阅读 · 2021年11月19日
Arxiv
0+阅读 · 2021年11月18日
Arxiv
7+阅读 · 2021年10月19日
Arxiv
6+阅读 · 2021年3月30日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
22篇论文!增量学习/终生学习论文资源列表
专知
32+阅读 · 2018年12月27日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员