最先进的NAS算法不如随机搜索，瑞士学者研究结果让人吃惊，也令人怀疑

会员服务 ·

最先进的NAS算法不如随机搜索，瑞士学者研究结果让人吃惊，也令人怀疑

2019 年 9 月 3 日 CVer

晓查发自凹非寺
量子位出品 | 公众号 QbitAI

最先进的神经架构搜索（NAS）算法竟然不如随机搜索？

来自瑞士电信和EPFL的研究者提出了一种评价NAS搜索阶段的测试基准。他们发现，最先进的三种NAS算法DARTS、NAO、ENAS往往与随机搜索完全相同，甚至在某些情况下还不如随机搜索。

因此，他们希望，用这套评估方法能够启发其他人，让研究者去寻找新的NAS算法搜索策略。

NAS与随机搜索

NAS算法分为两个阶段：搜索体系结构空间、验证最佳体系结构。

在搜索阶段，采样器被训练到收敛或预定义的停止标准。评估阶段会从头开始训练最佳模型，并根据测试数据对其进行评估。

在搜索阶段，NAS算法用到了两个近似：减少搜索空间、跨不同体系结构的权重共享。

目前的评估方法仅通过比较下游任务的结果来评估NAS算法。虽然直观，但未能明确评估其搜索策略的有效性。

因此，研究人员将NAS评估程序扩展到包括搜索阶段，把NAS搜索策略获得的解决方案与随机选择进行比较，从而的出搜索阶段的算法对最终结果的影响。

与普通的NAS不同的是，研究人员将NAS策略找到的最佳体系结构与单个统一随机采样体系结构进行比较。

为了使这个比较有意义，他们用不同的随机种子重复计算，以便训练NAS采样器和随机搜索策略，然后比较不同种子的平均值和标准偏差。

对比实验是在词级语言模型宾夕法尼亚树库（PTB）数据集上进行的。神经网络的目标是找到一个循环单元，正确地预测给定输入序列的下一个单词。然后使用标准的困惑度量来评估候选网络的质量。

最终的实验结果如下图，研究人员绘制了在1000个epoch内使用10种不同种子发现的最佳网络结构的平均困惑度演化。

图的左侧展示了10种不同种子在三个NAS和一个随机搜索中的平均结果，右侧展示了四种算法的最佳结果。用表格显示结果：

为了让NAS和随机搜索更容易找到最佳的网络架构，研究人员缩小了搜索空间，减少了节点树，让实验只有32中可能的解决方案。

结果即使在这个空间中，NAS也没有找到最佳解决方案。这让作者怀疑是否因为权重共享导致了基较差的结果，因此他们去掉了权重共享，并和原来的方案进行对比。

实验结果证明了作者的猜想。

最后，论文得出了三点结论：

平均而言，随机策略优于最先进的NAS算法；
NAS算法的结果和候选排名并不反映候选架构的真实表现；
权重共享策略会对训练产生负面影响，从而降低搜索过程的有效性。

网友的质疑

这篇论文结论的一反常态，无疑让研究NAS的人都大吃一惊。因此这篇论文在Reddit的机器学习板块上发表后，有不少网友对此产生了质疑。

首先，他们认为文中的测试基线过于简单，不太具有说服力。

作者也在指出了文中的随机搜索本来就是经过NAS筛选的结果。因为NAS算法的搜索空间在构造过程中受到了足够的约束，因此即使是这个空间中的随机架构也能提供良好的结果。

所以这篇文章的目的不是彻底否定NAS，而是提供一种搜索网络架构的新思路。

传送门

论文地址：
https://arxiv.org/abs/1902.08142

Reddit讨论地址：
https://www.reddit.com/r/MachineLearning/comments/cycw35/r_random_search_outperforms_stateoftheart_nas/

重磅！CVer-NAS交流群成立啦

扫码添加CVer助手，可申请加入CVer-NAS学术交流群，同时还可以加入目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测和模型剪枝&压缩等群。一定要备注：研究方向+地点+学校/公司+昵称（如NAS+上海+上交+卡卡）