本文介绍的是CVPR2020论文《IMPROVING ONE-SHOT NAS BY SUPPRESSING THE POSTERIOR FADING》,作者来自商汤 AutoML 团队。
作者 | 商 汤
编辑 | 丛 末
论文地址:
http://xxx.itp.ac.cn/pdf/1910.02543v1
商汤AutoML团队提出的首个基于参数后验分布特性来提高网络机构搜索性能的工作,该工作为解决网络机构搜索中快速代理的有效性问题提供了新的思路。
同时该团队也公开了在ImageNet数据集上的两种不同尺寸的模型,作为模型结构搜索和设计的baseline。相比之前的工作,PC-NAS在结构搜索代理的有效性上有明显的提升。
该文章提供了一个分析One-shot参数后验分布的方式,在得出搜索空间中存在的结构越多参数后验分布偏离得越多的结论后,提出了一个基于空间修剪的NAS算法。该工作的研究动机在于:
1. 当前网络结构搜索算法(NAS)已经可以应用应用。其大量的计算量需求成为了当前最大的问题。然而解决计算量问题的方法目前还不完美,使用共享参数的超网做代理成为了目前比较普遍的选择。但这类方法受限于代理和真实情况的偏差。
2. 根据观察和分析,共享参数在训练过程中得到的参数后验与单个模型独立训练的参数分布有一定的规律。接下来将详细介绍该工作的观察和分析。
根据贝叶斯模型选择(以及一定的假设),该工作对共享权重对结构排序带来的影响给出了两个观察:
为了在训练权重共享的同时,减小权重共享的网络结构数量,我们提出一种训练时的空间修剪方法。假设我们目前有一个如上图(a)所示的超网,每一层拥有一个mixop(mixop是n个候选op的合称)于是该超网中总共包含n^层数个不同的结构。为了进行搜索空间的修剪,我们提出了 部分结构池的概念(partialmodel pool)。假设网络结构有L层,部分结构池在整个搜索过程中将会有L个状态(Stage)。每从L-1状态到L状态,部分结构池中的子结构的层数将增长1。
如图(b),此时Stage=2,在部分结构池中有两个层数为2的结构,通过节点编号命名为(1,1)和(0,1)。为了进行至Stage=3,我们会评估2x3个部分结构的潜力,分别是(1,1, 0),(1,1,1),(1,1,2),以及(0,1,0),(0,1,1),(0,1,2)。如何评价部分网络的优劣或者说潜力呢?
为此我们定义 Potential 是在部分结构中为指定的mixop进行随机采样的结构的平均validation set acc。
根据上述搜索过程我们分别在一大一小两个网络空间中进行搜索。小搜索空间中每层包含9种operator,大搜索空间包含每层19种operator。我们把大搜索空间的搜索结果命名为PC-NAS-L,小搜索空间的模型命名为PC-NAS-S。
上表可以看出,在同等的gpu lantency下,我们的PC-NAS可以超过或不低于所有baseline。
那么我们采用的搜索空间收缩算法是否有效的提高了代理的有效性呢?
我们将同一套代码,使用从头至尾采用one-shot方法训练和使用我们的算法训练的shareweights进行了比较。对于最后存在在最后一个stage中的部分结构模型所拓展的结构,还有我们随机在one-shot方法中采的相同数量的结构,这两个群体之间,真实acc和proxyacc之间的相关性。我们可以看到,在最后阶段,相关性比one-shot方法要有一定优势。
[1] Georege Adam and JonathanLorraine. Understanding neural architecture search techniques. arXiv preprintarXiv:1904.00438, 2019.
[2] Bowen Baker, Otkrist Gupta,Nikhil Naik, and Ramesh Raskar. Designing neural network architectures usingreinforcement learning. International Conference on Learning Representations,2017a.
[3] Gabriel Bender, Pieter-Jan Kindermans, BarretZoph, Vijay Vasudevan, and Quoc V. Le. Understanding and simplifying one-shotarchitecture search. ICML, 2018.
22. 神奇的自监督场景去遮挡
1、ACL 2020 - 复旦大学系列解读
直播主题:不同粒度的抽取式文本摘要系统
主讲人:王丹青、钟鸣
直播时间:4月 25 日,(周一晚) 20:00整。
直播主题:结合词典的中文命名实体识别【ACL 2020 - 复旦大学系列解读之(二)】
主讲人:马若恬, 李孝男
直播时间:4月 26 日,(周一晚) 20:00整。
直播主题:ACL 2020 | 基于对抗样本的依存句法模型鲁棒性分析
【ACL 2020 - 复旦大学系列解读之(三)】
主讲人:曾捷航
直播时间:4月 27 日,(周一晚) 20:00整。
2、ICLR 2020 系列直播
直播主题:ICLR 2020丨Action Semantics Network: Considering the Effects of Actions in Multiagent Systems
主讲人:王维埙
回放链接:http://mooc.yanxishe.com/open/course/793
直播主题:ICLR 2020丨通过负采样从专家数据中学习自我纠正的策略和价值函数
主讲人:罗雨屏
回放链接:http://mooc.yanxishe.com/open/course/802(回放时间:4月25日上午10点)
直播主题:ICLR 2020丨分段线性激活函数塑造了神经网络损失曲面
主讲人:何凤翔
直播时间:4月24日 (周五晚) 20:00整
扫码关注[ AI研习社顶会小助手] 微信号,发送关键字“ICLR 2020+直播” 或 “ACL 2020+直播”,即可进相应直播群,观看直播和获取课程资料。