Deep neural networks have enormous representational power which leads them to overfit on most datasets. Thus, regularizing them is important in order to reduce overfitting and enhance their generalization capabilities. Recently, channel shuffle operation has been introduced for mixing channels in group convolutions in resource efficient networks in order to reduce memory and computations. This paper studies the operation of channel shuffle as a regularization technique in deep convolutional networks. We show that while random shuffling of channels during training drastically reduce their performance, however, randomly shuffling small patches between channels significantly improves their performance. The patches to be shuffled are picked from the same spatial locations in the feature maps such that a patch, when transferred from one channel to another, acts as structured noise for the later channel. We call this method "ShuffleBlock". The proposed ShuffleBlock module is easy to implement and improves the performance of several baseline networks on the task of image classification on CIFAR and ImageNet datasets. It also achieves comparable and in many cases better performance than many other regularization methods. We provide several ablation studies on selecting various hyperparameters of the ShuffleBlock module and propose a new scheduling method that further enhances its performance.


翻译:深心神经网络具有巨大的代表力,导致它们过度使用大多数数据集。 因此, 对它们进行正规化非常重要, 以减少过度装配和提高其一般化能力。 最近, 在资源效率高的网络中, 引入了频道洗牌操作, 用于在群体变异中混合频道, 以减少记忆和计算。 本文将频道洗牌作为深进化网络的正规化技术来研究频道洗牌的操作。 我们显示, 在培训过程中随机地对频道进行洗涤, 从而大幅降低其性能, 然而, 随机地在频道间乱晃小块子会大大改善它们的性能。 拟打乱的补丁是从功能图中相同的空间位置中提取的。 这样, 一个补丁在从一个频道转移到另一个频道时, 就会作为后一个频道的结构噪音 。 我们称之为“ shulfleBlock ” 方法。 拟议的 ShuffleBlock 模块易于实施, 并改进几个基准网络在 CIRA和图像网络图像网图像分类任务上的性能大大改进它们的性能。 我们提议了几个模型的性能模型, 。 我们提议进一步改进了各种性能模块。

0
下载
关闭预览

相关内容

【图神经网络导论】Intro to Graph Neural Networks,176页ppt
专知会员服务
125+阅读 · 2021年6月4日
【ICLR-2020】网络反卷积,NETWORK DECONVOLUTION
专知会员服务
38+阅读 · 2020年2月21日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
已删除
将门创投
8+阅读 · 2019年3月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
资源|斯坦福课程:深度学习理论!
全球人工智能
17+阅读 · 2017年11月9日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年8月17日
Arxiv
7+阅读 · 2021年5月13日
Arxiv
27+阅读 · 2020年6月19日
Geometric Graph Convolutional Neural Networks
Arxiv
10+阅读 · 2019年9月11日
Arxiv
3+阅读 · 2018年8月12日
Arxiv
3+阅读 · 2018年2月11日
Arxiv
7+阅读 · 2018年1月10日
VIP会员
相关VIP内容
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
已删除
将门创投
8+阅读 · 2019年3月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
资源|斯坦福课程:深度学习理论!
全球人工智能
17+阅读 · 2017年11月9日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Arxiv
0+阅读 · 2021年8月17日
Arxiv
7+阅读 · 2021年5月13日
Arxiv
27+阅读 · 2020年6月19日
Geometric Graph Convolutional Neural Networks
Arxiv
10+阅读 · 2019年9月11日
Arxiv
3+阅读 · 2018年8月12日
Arxiv
3+阅读 · 2018年2月11日
Arxiv
7+阅读 · 2018年1月10日
Top
微信扫码咨询专知VIP会员