无需训练的 ViT 结构搜索算法是怎么样的?性能又如何呢? 腾讯优图实验室、厦门大学等机构对此进行了深入的探讨与研究。论文被选中为 CVPR 2022 Oral。
在空间的复杂度上,ViT 搜索空间(如,GLiT 空间的量级约 10^30)在数量上远远超过 CNN 搜索空间(如,DARTS 空间的量级约 10^18);
ViT 模型通常需要更多的训练周期(如300 epochs)才能知道其对应的效果。
论文地址:https://arxiv.org/pdf/2203.12217.pdf
项目地址:https://github.com/decemberzhou/TF_TAS
测量在初始化状态下衡量突触的显著性用于 CNN 模型的剪枝;
由于 Transformer 中不同模块在初始化阶段也有不同程度的冗余,因而可以通过对不同大小的 Transformer 进行剪枝。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com