为了设计出高性能低计算量的网络结构,研究人员往往需要采用神经网络结构搜索(NAS)算法来获得突破手工设计上限的结构。为了提高搜索效率,目前方法通常采用一个 One-shot 的超网络,使得在搜索空间中的结构都能从超网络中获得相互共享的网络权重(weights)。在此类方法中,权重共享的假设十分重要。特别地,对于超网络中的任意 operation,所有的结构具有同样的网络权重。尽管这种假设能有效提高网络的训练效率,然而这也限制了不同网络结构在 Supernet 中选择不同 weights 的自由度。事实上,在单个的网络结构训练中,不同结构对应的同一 operation 的 weights (stand-alone weights) 应该有一定的不同。Supernet 作为一个网络评估器,应尽可能满足其中包含任意子结构 weights 与 stand-alone 训练的 weights 的一致性。显然 One-shot 框架下的 Supernet 构建方式很难满足这种需求并实现准确地评估不同结构的性能。

在本篇论文中,我们提出了一种 K-shot NAS 的 Supernet 构建框架以释放子网络结构在 Supernet 中的潜力。不同于 One-shot 框架中每个 operation 仅保留一套独立的网络权重的做法,在 K-shot NAS 方法中,我们对于每一个 operation 构建了一个权重的字典,对应于 K 个Supernets 的 weights。所有包含特定 operation 的子网络结构都将共享这 K 个 Supernets 的全部 weights, 因此我们致力于探索每个子网络结构对于 K 个 Supernets 的 weights 的定制(组合)方式即可。具体而言,对于任意子结构,每个 operation 的 weight 都将通过一个 simplex 上字典中的凸组合进行表示。一个 simplex-net 用来生成不同子结构对应的 operation 的 K 个 Supernets 凸组合的权重。基于每个结构对应的凸组合,其独有的 weight sharing 方式将被构造和使用。简单而言,One-shot 框架利用 rank-1 的矩阵来近似所有子结构对应的单独训练的权重,而我们的 K-shot NAS 方法则鼓励相应更高阶的近似关系。在此基础上,我们进一步探索了联合搜索 operations 和channels 的情况,channel 分支可以直接编码进入 simplex-net 来探索不同层之间的上下文信息或差异。我们进一步提出了一个非参数化的正则化方法来提高不同 path 之间 weight sharing 编码的区分性。本文算法在 ImageNet 和 NAS-Bench-201 上都取得了 SOTA (state-of-the-art) 的结果。

成为VIP会员查看完整内容
17

相关内容

专知会员服务
20+阅读 · 2021年9月16日
专知会员服务
39+阅读 · 2021年8月20日
专知会员服务
28+阅读 · 2021年8月2日
专知会员服务
25+阅读 · 2021年7月11日
专知会员服务
12+阅读 · 2021年3月25日
【CVPR2021】面向视频动作分割的高效网络结构搜索
专知会员服务
14+阅读 · 2021年3月14日
Transformer 在美团搜索排序中的实践
AINLP
3+阅读 · 2020年4月17日
谷歌提出MorphNet:网络规模更小、速度更快!
全球人工智能
4+阅读 · 2019年4月20日
论文浅尝 | 面向知识图谱补全的共享嵌入神经网络模型
开放知识图谱
31+阅读 · 2019年4月7日
谷歌放大招!数据增强实现自动化
新智元
8+阅读 · 2018年6月4日
Arxiv
8+阅读 · 2020年6月15日
Fast AutoAugment
Arxiv
5+阅读 · 2019年5月1日
Arxiv
3+阅读 · 2018年6月24日
VIP会员
相关VIP内容
专知会员服务
20+阅读 · 2021年9月16日
专知会员服务
39+阅读 · 2021年8月20日
专知会员服务
28+阅读 · 2021年8月2日
专知会员服务
25+阅读 · 2021年7月11日
专知会员服务
12+阅读 · 2021年3月25日
【CVPR2021】面向视频动作分割的高效网络结构搜索
专知会员服务
14+阅读 · 2021年3月14日
微信扫码咨询专知VIP会员