深度学习已经成功地实现了机器学习流程中特征设计的自动化。然而,优化神经网络参数的算法在很大程度上仍然是手工设计的,计算效率低。我们研究是否可以利用深度学习直接预测这些参数,利用以往训练其他网络的知识。我们介绍了一个大型的神经结构计算图数据集——DeepNets-1M——并利用它来探索CIFAR-10和ImageNet的参数预测。通过利用图神经网络的进步,我们提出了一种超网络,它可以在单次向前传递中预测性能参数,即使在CPU上也只需要几分之一秒。提出的模型在不同的网络中取得了令人惊讶的良好性能。例如,它能够预测ResNet-50的所有2400万个参数,在CIFAR-10上的准确率为60%。在ImageNet上,我们的一些网络前五名的准确率接近50%。我们的任务以及模型和结果可能会导致一种新的、计算效率更高的训练网络范式。我们的模型还学习了神经结构的优异表示,使其分析成为可能。
https://www.zhuanzhi.ai/paper/12b82514059bcf9a9a71a200eb72980e