会员服务 ·

Fair DARTS：公平的可微分神经网络搜索

2019 年 11 月 29 日 PaperWeekly

作者丨陆顺

学校丨中科院计算所硕士

研究方向丨神经网络架构搜索

创新和贡献

直观上来看，本文依然是针对 DARTS 所存的两点问题进行的改进工作。

第一点是指出 DARTS 中跳跃连接（skip connections）聚集问题（这一点是老生常谈了，P-DARTS、DARTS+ 等论文都提到过）。

第二点是提出 DARTS 在将连续的架构权重离散化时存在着不可忽略的不一致问题（个人理解这一点应该是发生在训练后选取网络架构时，直接将 softmax 后最大 α 值对应的操作保留而抛弃其它的操作，从而使得选出的网络结构和原始包含所有结构的超网二者的表现能力存在差距如下表所示）。

方法层面，虽然针对第一点问题进行分析的文章很多，但是本文提出的方案和解决思路与他人不同（P-DARTS 提出使用 dropout 同时人为限定 skip connections 的数量、DARTS+ 提出“早停”即当 skip connections 达到两个或两个以上或者是 α 排序足够稳定时提前停止搜索过程）。

本文分析了为什么 skip connections 会聚集，原因是 skip connections 的不公平优势（作者分析跳跃连接对于训练深度神经网络有益所以其参数值增加得快，但是它对训练的贡献大于对最终表现能力的贡献）和 softmax 潜在的排外竞争方式（一个参数增大必然抑制其他参数如下图所示），这两点原因联合导致了第一点问题，但是只要修正任意一点原因就可以解决问题。

本文依然是从“Fair”的角度切入分析。本文主要是针对以上两个问题进行分析解决，文中进行了大量的对比实验，使得这篇论文的实验和图表非常充足。并且，本文也同步开源了搜索代码。

方法概述

skip connections 的不公平优势和 softmax 潜在的排外竞争，提出使用 sigmoid 替换 softmax。

既然作者分析出主要原因是 skip connections 的不公平优势（可参见本文的定义1，即该操作包含一个对竞争（训练搜索）贡献多余其对表现能力的贡献则称其包含不公平的优势）和 softmax 潜在的排外竞争，那么顺理成章能想到两种方案：

1. 消除 skip connections 的不公平优势；

2. 保留 skip connections 换用其他的无排外竞争的函数替换 softmax（本文使用 sigmoid 函数替换 softmax）。

针对不可忽视的离散化差异问题，提出一个新的 0-1 损失使差异最小化。

离散化差异问题主要在于两点，一方面对于文中的等式 3 并不是一个很好的估计（因为 DARTS 中最后选择时的 α 值基本都在 0.1 到 0.3 之间），另一方面判定好坏的范围比较窄（因为不同操作 α 值的 top1 和 top2 可能差距特别小，例如 0.26 和 0.24，很难说 0.26 就一定比 0.24 好）。

那么解决方案就是让这个差距变得明显，从而使得保留操作这一步能有好的估计。使用上述损失函数就可以使得不同操作之间的差距增大，二者的 α 值要么逼近 0 要么逼近 1 如下图曲线所示（极端就是把平方换成绝对值如下图折线）。

实验分析

CIFAR-10 数据集上搜索结果：

1. 精度比较，FairDARTS 搜索 7 次均可得到鲁棒性的结果：

2. DARTS 和 Fair DARTS 搜索出来的 cell 中所包含的 skip connections 数量比较：

ImageNet 数据集上搜索结果：

1. 精度比较（注意模型 A、B 是迁移比较，C、D 是直接搜索比较）

2. 热力图可看出使用 sigmoid 函数可让其他操作和 skip connections 共存：

根据上文分析，去掉 skip connections 的实验结果：

对于 0-1 损失函数的分析：

1. 如果去掉 0-1 损失函数会使得 α 值不再集中于两端，不利于离散化：

2. 损失灵敏度，即通过超参

来控制 0-1 损失函数的灵敏度：

文中讨论：

1）对于 skip connections 使用 dropout 减少了不公平性；

2）对所有操作使用 dropout 同样是有帮助的；

3）早停机制同样关键（相当于是在不公平出现以前及时止损）；

4）限制 skip connections 的数量需要极大的人为先验，因为作者发现只要限定 skip connections 的数量为 2，随机搜索也能获得不错的结果；

5）高斯噪声或许也能打破不公平优势。

通过本文的分析，上述讨论 1）、2）、3）也就能从本质上说通了。4）、5）的实验结果如下表所示，进一步验证了作者的猜想，充分证明了本文提出原因的正确性。同时，个人感觉本文是前面论文的综合版，使得 DARTS+，PDARTS 以及 RobustDARTS 成为本文所提方法的特例。

本文的所有实验汇总，更多实验对比还请查看原文：

思考

本文通过更深层次分析了 DARTS 现存的问题，不公平优势和排外竞争是导致 DARTS 性能崩塌的两个不可或缺因素，只要消除其中一个即可解决问题。读完本文后，可以发现 DARTS 的稳定性问题也是值得深入思考的。虽然本文的实验很充分，但美中不足的是实验图表确实太多了，看懂这篇文章还是要费尽周折，容易让人抓不住重点。