Deeper and wider CNNs are known to provide improved performance for deep learning tasks. However, most such networks have poor performance gain per parameter increase. In this paper, we investigate whether the gain observed in deeper models is purely due to the addition of more optimization parameters or whether the physical size of the network as well plays a role. Further, we present a novel rescaling strategy for CNNs based on learnable repetition of its parameters. Based on this strategy, we rescale CNNs without changing their parameter count, and show that learnable sharing of weights itself can provide significant boost in the performance of any given model without changing its parameter count. We show that small base networks when rescaled, can provide performance comparable to deeper networks with as low as 6% of optimization parameters of the deeper one. The relevance of weight sharing is further highlighted through the example of group-equivariant CNNs. We show that the significant improvements obtained with group-equivariant CNNs over the regular CNNs on classification problems are only partly due to the added equivariance property, and part of it comes from the learnable repetition of network weights. For rot-MNIST dataset, we show that up to 40% of the relative gain reported by state-of-the-art methods for rotation equivariance could actually be due to just the learnt repetition of weights.


翻译:深层和广度的CNN已知能为深层学习任务提供更好的业绩。 然而, 大部分这类网络的每个参数的增益都差。 在本文中, 我们调查深层模型中观察到的增益是否纯粹因为增加了更多优化参数, 或网络的物理大小也发挥了一定的作用。 此外, 我们为CNN提出了一个基于可学习的重复参数的新颖的调整战略。 基于这一战略, 我们重新提升CNN的比重, 不改变参数计数, 并显示可以学习的分量本身可以大大提升任何特定模型的性能, 而不会改变参数的计数。 我们显示, 重力的小型基础网络在重新标度时, 能够提供与深度网络的低至6%优化参数的更深网络相近的性能。 权重共享的相关性通过群体- QNCNN( CNN) 实例进一步得到进一步强调。 我们显示,在常规CNNCN( CNN) 的分类问题中, 群体- 变异性CNNNNNCN(S) 所取得的重大改进只能部分是由于增加了变异性属性,, 而部分是由于网络重度的特性的特性的特性的特性的特性, 部分来自网络重度的可学习重重度的重度的重度的重度的重度的重度的重度的重度的重度的重度。

0
下载
关闭预览

相关内容

再缩放是一个类别不平衡学习的一个基本策略。当训练集中正、反例数据不均等时,令m+表示正例数,m-表示反例数,并且需对预测值进行缩放调整。
专知会员服务
31+阅读 · 2021年7月15日
【清华大学】图随机神经网络,Graph Random Neural Networks
专知会员服务
154+阅读 · 2020年5月26日
因果图,Causal Graphs,52页ppt
专知会员服务
243+阅读 · 2020年4月19日
内涵网络嵌入:Content-rich Network Embedding
我爱读PAMI
4+阅读 · 2019年11月5日
Hierarchically Structured Meta-learning
CreateAMind
24+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
13+阅读 · 2021年5月25日
Arxiv
17+阅读 · 2021年2月15日
Explanatory Graphs for CNNs
Arxiv
4+阅读 · 2018年12月18日
Arxiv
10+阅读 · 2017年7月4日
VIP会员
相关资讯
内涵网络嵌入:Content-rich Network Embedding
我爱读PAMI
4+阅读 · 2019年11月5日
Hierarchically Structured Meta-learning
CreateAMind
24+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Arxiv
13+阅读 · 2021年5月25日
Arxiv
17+阅读 · 2021年2月15日
Explanatory Graphs for CNNs
Arxiv
4+阅读 · 2018年12月18日
Arxiv
10+阅读 · 2017年7月4日
Top
微信扫码咨询专知VIP会员