Searching for network width is an effective way to slim deep neural networks with hardware budgets. With this aim, a one-shot supernet is usually leveraged as a performance evaluator to rank the performance \wrt~different width. Nevertheless, current methods mainly follow a manually fixed weight sharing pattern, which is limited to distinguish the performance gap of different width. In this paper, to better evaluate each width, we propose a locally free weight sharing strategy (CafeNet) accordingly. In CafeNet, weights are more freely shared, and each width is jointly indicated by its base channels and free channels, where free channels are supposed to locate freely in a local zone to better represent each width. Besides, we propose to further reduce the search space by leveraging our introduced FLOPs-sensitive bins. As a result, our CafeNet can be trained stochastically and get optimized within a min-min strategy. Extensive experiments on ImageNet, CIFAR-10, CelebA and MS COCO dataset have verified our superiority comparing to other state-of-the-art baselines. For example, our method can further boost the benchmark NAS network EfficientNet-B0 by 0.41\% via searching its width more delicately.


翻译:搜索网络宽度是用硬件预算来缩小深心神经网络的有效方法。 以此为目标, 通常会利用一个单发超级网作为绩效评估员, 对性能进行排名 \ wrt~ 不同宽度。 然而, 目前的方法主要是采用人工固定的重量共享模式, 仅限于区分不同宽度的性能差距。 在本文中, 为了更好地评估每个宽度, 我们相应提出一个本地免费的权重共享战略( CafeNet ) 。 在 CafeNet 中, 重量可以更自由地共享, 每个宽度由它的基础频道和自由频道共同表示, 自由频道应该自由定位于一个本地区域, 以更好地代表每个宽度 。 此外, 我们提议进一步缩小搜索空间, 利用我们引入的对 FLOP 敏感的文件夹 。 结果, 我们的 CafeNet 可以在微调战略中进行精密的训练, 优化。 在图像网、 CIFAR- 10、 CelibA 和 MS COCO 数据集上进行广泛的实验, 将我们的优势与其他状态基线进行比较。 例如, 我们的方法可以进一步提升基准 NAS Q- greax- greax

0
下载
关闭预览

相关内容

专知会员服务
10+阅读 · 2021年3月21日
【伯克利】再思考 Transformer中的Batch Normalization
专知会员服务
40+阅读 · 2020年3月21日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
Hierarchically Structured Meta-learning
CreateAMind
25+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年4月3日
Arxiv
4+阅读 · 2020年3月27日
Arxiv
13+阅读 · 2019年11月14日
Attention Network Robustification for Person ReID
Arxiv
5+阅读 · 2019年10月15日
Neural Architecture Optimization
Arxiv
8+阅读 · 2018年9月5日
VIP会员
相关VIP内容
专知会员服务
10+阅读 · 2021年3月21日
【伯克利】再思考 Transformer中的Batch Normalization
专知会员服务
40+阅读 · 2020年3月21日
相关论文
Top
微信扫码咨询专知VIP会员