图 3/表 3:消融实验结果示意。左图为不同采样比例 K 对搜索结果的影响,右表为 PC 和 EN 对于原始算法分别产生的有益效果。 首先我们研究了通道采样比例 K 对搜索性能以及速度的影响。这个实验是在 CIFAR10 上进行的。可以看到当综合考虑搜索的时间和性能时,K=4 为最佳。K=8 时,虽然搜索时间更低,但是由于采样的通道数太少,超网络的性能有了显著下降。这个实验不仅展示了 PC-DARTS 允许在搜索时间和精度之间进行权衡,同时也反映了 NAS 中超网络优化具有一定的冗余性。更重要的是,它清晰地展示了 DARTS 算法下,搜索和验证之间的差异:一个优化得更好的超网络不一定会产生最终性能更好的子网络。基于超网络训练的 NAS 方法很容易产生过拟合现象——从这个角度讲,通道采样起了正则化的作用,缩小了搜索与验证之间的差异性。另一种减少差异性的方法,见 [2]。 此外,为了显示部分通道连接与边正则化的有效性,我们进行了消融实验。可以看到,虽然部分通道连接使得搜索速度更快、性能也有所提升,然而边正则化的加入使得整个搜索算法的稳定性更强。同时注意到,即使直接在 DARTS 上加入边正则化,对于其搜索的精度和稳定性也有显著的提升。因此我们判断,边正则化方法能够扩展到更一般的基于超网络优化的搜索算法。 4.3 迁移到目标检测 为了进一步验证搜索出结构的性能,我们将网络迁移到目标检测任务中进行比较。我们选择 SSD[4] 作为基础框架,并将在 ImageNet 上搜索和预训练的网络结构好作为后端网络。我们在 MS-COCO 数据集下测试了一系列模型的性能。在更低的 FLOPs 下,PC-DARTS 比 SSD300 在 AP 指标上高出 5.7%。在类似的 FLOPs 下,PC-DARTS 相较于 MobileNet 系列的性能优势也十分明显。实验证实,PC-DARTS 在图像分类任务上搜索出的结构,能够很好地迁移到更具挑战性的目标检测任务中。这也在一定程度上得益于 PC-DARTS 减轻了超网络的过拟合,从而提升了迁移性能。
表 5:将搜索到的网络结构迁移到 MS-COCO 检测任务上的对比结果。 5. 总结 本文提出部分通道连接的可微分网络结构搜索方法 PC-DARTS,使得可微分搜索更快、更稳定,也在多个数据集上取得了更好的性能。其中的边正则化方法也能够用于其他超网络搜索算法,增加训练的稳定性。经过细致的优化,PC-DARTS 将网络结构搜索的时间开销降低到小时级,特别便于资源受限的研究工作者使用。 然而我们也注意到,可微分网络结构搜索已然存在一些未解难题,如超网络到子网络的近似所带来的巨大量化误差。在今后的研究工作中,我们会在这些方面进行持续探索,进一步提升可微分框架的竞争力。 参考文献 [1] Hanxiao Liu, Karen Simonyan, and Yiming Yang. DARTS: Differentiable architecture search. In ICLR, 2019.[2] Xin Chen, Lingxi Xie, Jun Wu, and Qi Tian. Progressive differentiable architecture search: Bridging the depth gap between search and evaluation. In ICCV, 2019.[3] Han Cai, Ligeng Zhu, and Song Han. ProxylessNAS: Direct neural architecture search on target task and hardware. In ICLR, 2019.[4] Weiwei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott E. Reed, Cheng-Yang Fu, and Alexander C. Berg. Ssd: Single shot multibox detector. In ECCV, 2016. 本文为机器之心发布,转载请联系本公众号获得授权。 ✄------------------------------------------------加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com投稿或寻求报道:content@jiqizhixin.com广告 & 商务合作:bd@jiqizhixin.com