Filter is the key component in modern convolutional neural networks (CNNs). However, since CNNs are usually over-parameterized, a pre-trained network always contain some invalid (unimportant) filters. These filters have relatively small $l_{1}$ norm and contribute little to the output (\textbf{Reason}). While filter pruning removes these invalid filters for efficiency consideration, we tend to reactivate them to improve the representation capability of CNNs. In this paper, we introduce filter grafting (\textbf{Method}) to achieve this goal. The activation is processed by grafting external information (weights) into invalid filters. To better perform the grafting, we develop a novel criterion to measure the information of filters and an adaptive weighting strategy to balance the grafted information among networks. After the grafting operation, the network has fewer invalid filters compared with its initial state, enpowering the model with more representation capacity. Meanwhile, since grafting is operated reciprocally on all networks involved, we find that grafting may lose the information of valid filters when improving invalid filters. To gain a universal improvement on both valid and invalid filters, we compensate grafting with distillation (\textbf{Cultivation}) to overcome the drawback of grafting . Extensive experiments are performed on the classification and recognition tasks to show the superiority of our method. Code is available at \textcolor{black}{\emph{https://github.com/fxmeng/filter-grafting}}.


翻译:过滤器是现代神经神经神经网络(CNNNs)的关键组成部分。 但是,由于CNN通常使用过量参数, 接受过培训的网络总是包含一些无效( 不重要) 过滤器。 这些过滤器的常规值相对较小, 且对输出贡献不大( \ textbf{ Reason} ) 。 虽然过滤器的运行去除了这些无效过滤器, 以提高效率为考量, 我们倾向于重新启动这些无效过滤器, 以提高CNN的显示能力。 在本文中, 我们引入过滤器的过滤器( textbff{Method} ) 来实现这一目标。 启动程序是通过将外部信息( 重量) 移植到无效过滤器来处理的。 为了更好地执行, 我们开发了一个新标准, 测量过滤器的信息和调整加权战略来平衡网络中刻画的信息。 在调动操作后, 网络的无效过滤器比初始状态要少一些。 同时, 在所有网络上, 粘贴的操作是对等操作, 我们发现, 将外部信息( 重量) 复制的过滤器的过滤器会失去正常的过滤器。 在改进过程中, 我们的过滤器上会显示无效的过滤器的过滤器是无效的。

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
深度学习搜索,Exploring Deep Learning for Search
专知会员服务
57+阅读 · 2020年5月9日
神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
31+阅读 · 2020年4月15日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
13+阅读 · 2019年11月14日
Arxiv
3+阅读 · 2019年3月15日
Arxiv
19+阅读 · 2018年3月28日
VIP会员
Top
微信扫码咨询专知VIP会员