We provide the first global optimization landscape analysis of $Neural\;Collapse$ -- an intriguing empirical phenomenon that arises in the last-layer classifiers and features of neural networks during the terminal phase of training. As recently reported by Papyan et al., this phenomenon implies that ($i$) the class means and the last-layer classifiers all collapse to the vertices of a Simplex Equiangular Tight Frame (ETF) up to scaling, and ($ii$) cross-example within-class variability of last-layer activations collapses to zero. We study the problem based on a simplified $unconstrained\;feature\;model$, which isolates the topmost layers from the classifier of the neural network. In this context, we show that the classical cross-entropy loss with weight decay has a benign global landscape, in the sense that the only global minimizers are the Simplex ETFs while all other critical points are strict saddles whose Hessian exhibit negative curvature directions. In contrast to existing landscape analysis for deep neural networks which is often disconnected from practice, our analysis of the simplified model not only does it explain what kind of features are learned in the last layer, but it also shows why they can be efficiently optimized in the simplified settings, matching the empirical observations in practical deep network architectures. These findings could have profound implications for optimization, generalization, and robustness of broad interests. For example, our experiments demonstrate that one may set the feature dimension equal to the number of classes and fix the last-layer classifier to be a Simplex ETF for network training, which reduces memory cost by over $20\%$ on ResNet18 without sacrificing the generalization performance.


翻译:我们提供了第一个全球优化景观分析 $Neural\ ; 折叠美元 -- -- 这是在培训末期阶段最后一级分类和神经网络特征中出现的令人感兴趣的实验现象。 正如Papyan等人最近所报告的, 这种现象意味着(美元) 类和最后一级分类方法都崩溃到一个简单度等宽度框架(ETF)的顶端, 而(二) 类内跨级变异性在上层启动级升至零级。 我们根据一个简化的 $uncontrated\ ; 直线特性\; 模型$, 将最上层从神经网络的分类中分离出来。 在这方面, 我们表明, 典型的跨翼损失加上重量变色度框架(Etright Fram) 的顶端, 从这个意义上说, 唯一的全球最小值是简单度 ETFTF, 而对于所有其他关键点来说, Hesian 的严格级变形向下曲线方向向零。 与现有的深层内变色网络分析相比, 并不是降低一个深度的内层观测网络的底色网络分析, 它通常与精度的缩缩缩缩缩缩缩缩的内, 也解释了分析显示我们最精度结构的精度。

0
下载
关闭预览

相关内容

【图与几何深度学习】Graph and geometric deep learning,49页ppt
专知会员服务
44+阅读 · 2020年10月31日
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
71+阅读 · 2020年8月2日
一份简单《图神经网络》教程,28页ppt
专知会员服务
123+阅读 · 2020年8月2日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
最新!Yann Lecun 纽约大学Spring2020深度学习课程,附PPT下载
【课程推荐】 深度学习中的几何(Geometry of Deep Learning)
专知会员服务
57+阅读 · 2019年11月10日
已删除
将门创投
3+阅读 · 2019年10月18日
深度卷积神经网络中的降采样
极市平台
12+阅读 · 2019年5月24日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年6月28日
Arxiv
0+阅读 · 2021年6月27日
Arxiv
11+阅读 · 2021年2月17日
Visualizing and Measuring the Geometry of BERT
Arxiv
7+阅读 · 2019年10月28日
Arxiv
17+阅读 · 2019年3月28日
VIP会员
相关VIP内容
【图与几何深度学习】Graph and geometric deep learning,49页ppt
专知会员服务
44+阅读 · 2020年10月31日
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
71+阅读 · 2020年8月2日
一份简单《图神经网络》教程,28页ppt
专知会员服务
123+阅读 · 2020年8月2日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
最新!Yann Lecun 纽约大学Spring2020深度学习课程,附PPT下载
【课程推荐】 深度学习中的几何(Geometry of Deep Learning)
专知会员服务
57+阅读 · 2019年11月10日
相关资讯
已删除
将门创投
3+阅读 · 2019年10月18日
深度卷积神经网络中的降采样
极市平台
12+阅读 · 2019年5月24日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员