Fair DARTS:公平的可微分神经网络搜索

2019 年 11 月 29 日 PaperWeekly


作者丨陆顺

学校丨中科院计算所硕士

研究方向丨神经网络架构搜索




创新和贡献


直观上来看,本文依然是针对 DARTS 所存的两点问题进行的改进工作。

第一点是指出 DARTS 中跳跃连接(skip connections)聚集问题(这一点是老生常谈了,P-DARTS、DARTS+ 等论文都提到过)。

第二 点是提出 DARTS 在将连续的架构权重离散化时存在着不可忽略的不一致问题(个人理解这一点应该是发生在训练后选取网络架构时,直接将 softmax 后最大 α 值对应的操作保留而抛弃其它的操作,从而使得选出的网络结构和原始包含所有结构的超网二者的表现能力存在差距如下表所示)。


方法层面,虽然针对第一点问题进行分析的文章很多,但是本文提出的方案和解决思路与他人不同(P-DARTS 提出使用 dropout 同时人为限定 skip connections 的数量、DARTS+ 提出“早停”即当 skip connections 达到两个或两个以上或者是 α 排序足够稳定时提前停止搜索过程)。

本文分析了为什么 skip connections 会聚集,原因是 skip connections 的不公平优势(作者分析跳跃连接对于训练深度神经网络有益所以其参数值增加得快,但是它对训练的贡献大于对最终表现能力的贡献)和 softmax 潜在的排外竞争方式(一个参数增大必然抑制其他参数如下图所示),这两点原因联合导致了第一点问题,但是只要修正任意一点原因就可以解决问题。



本文依然是从“Fair”的角度切入分析。本文主要是针对以上两个问题进行分析解决,文中进行了大量的对比实验,使得这篇论文的实验和图表非常充足。并且,本文也同步开源了搜索代码。


方法概述


skip connections 的不公平优势和 softmax 潜在的排外竞争,提出使用 sigmoid 替换 softmax。

既然作者分析出主要原因是 skip connections 的不公平优势(可参见本文的定义1,即该操作包含一个对竞争(训练搜索)贡献多余其对表现能力的贡献则称其包含不公平的优势)和 softmax 潜在的排外竞争,那么顺理成章能想到两种方案:

1. 消除 skip connections 的不公平优势;

2. 保留 skip connections 换用其他的无排外竞争的函数替换 softmax(本文使用 sigmoid 函数替换 softmax)。

针对不可忽视的离散化差异问题,提出一个新的 0-1 损失使差异最小化。



离散化差异问题主要在于两点,一方面对于文中的等式 3 并不是一个很好的估计(因为 DARTS 中最后选择时的 α 值基本都在 0.1 到 0.3 之间),另一方面判定好坏的范围比较窄(因为不同操作 α 值的 top1 和 top2 可能差距特别小,例如 0.26 和 0.24,很难说 0.26 就一定比 0.24 好)。

那么解决方案就是让这个差距变得明显,从而使得保留操作这一步能有好的估计。使用上述损失函数就可以使得不同操作之间的差距增大,二者的 α 值要么逼近 0 要么逼近 1 如下图曲线所示(极端就是把平方换成绝对值如下图折线)。


实验分析


CIFAR-10 数据集上搜索结果:

1. 精度比较,FairDARTS 搜索 7 次均可得到鲁棒性的结果:


2. DARTS 和 Fair DARTS 搜索出来的 cell 中所包含的 skip connections 数量比较:




ImageNet 数据集上搜索结果:

1. 精度比较(注意模型 A、B 是迁移比较,C、D 是直接搜索比较)


2. 热力图可看出使用 sigmoid 函数可让其他操作和 skip connections 共存:



根据上文分析,去掉 skip connections 的实验结果:


对于 0-1 损失函数的分析:

1. 如果去掉 0-1 损失函数会使得 α 值不再集中于两端,不利于离散化:


2. 损失灵敏度,即通过超参 来控制 0-1 损失函数的灵敏度:


文中讨论: 

1)对于 skip connections 使用 dropout 减少了不公平性; 

2)对所有操作使用 dropout 同样是有帮助的; 

3)早停机制同样关键(相当于是在不公平出现以前及时止损);

4)限制 skip connections 的数量需要极大的人为先验,因为作者发现只要限定 skip connections 的数量为 2,随机搜索也能获得不错的结果; 

5)高斯噪声或许也能打破不公平优势。 

通过本文的分析,上述讨论 1)、2)、3)也就能从本质上说通了。4)、5)的实验结果如下表所示,进一步验证了作者的猜想,充分证明了本文提出原因的正确性。同时,个人感觉本文是前面论文的综合版,使得 DARTS+,PDARTS 以及 RobustDARTS 成为本文所提方法的特例。


本文的所有实验汇总,更多实验对比还请查看原文:


思考


本文通过更深层次分析了 DARTS 现存的问题,不公平优势和排外竞争是导致 DARTS 性能崩塌的两个不可或缺因素,只要消除其中一个即可解决问题。 读完本文后,可以发现 DARTS 的稳定性问题也是值得深入思考的。 虽然本文的实验很充分,但美中不足的是实验图表确实太多了,看懂这篇文章还是要费尽周折,容易让人抓不住重点。




点击以下标题查看更多往期内容: 




#投 稿 通 道#

 让你的论文被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。


📝 来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向) 

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接 

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志


📬 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site 

• 所有文章配图,请单独在附件中发送 

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



关于PaperWeekly


PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。


▽ 点击 | 阅读原文 | 下载论文 & 源码

登录查看更多
0

相关内容

[ICML-Google]先宽后窄:对深度薄网络的有效训练
专知会员服务
34+阅读 · 2020年7月5日
【伯克利】再思考 Transformer中的Batch Normalization
专知会员服务
40+阅读 · 2020年3月21日
【Nature论文】深度网络中的梯度下降复杂度控制
专知会员服务
38+阅读 · 2020年3月9日
【Google】利用AUTOML实现加速感知神经网络设计
专知会员服务
29+阅读 · 2020年3月5日
过参数化、剪枝和网络结构搜索
极市平台
17+阅读 · 2019年11月24日
CMU、谷歌提出Transformer-XL:学习超长上下文关系
机器之心
9+阅读 · 2019年1月18日
神经网络架构搜索(NAS)综述 | 附AutoML资料推荐
神经网络中的「注意力」是什么?怎么用?
北京思腾合力科技有限公司
17+阅读 · 2017年10月28日
Arxiv
12+阅读 · 2018年9月5日
Arxiv
3+阅读 · 2018年6月24日
Arxiv
3+阅读 · 2018年4月18日
VIP会员
相关资讯
Top
微信扫码咨询专知VIP会员