近期工作(White et al., 2020a;Yan et al., 2020)证明了架构编码在神经架构搜索(NAS)中的重要性。这些编码对神经结构的结构或计算信息进行编码。与结构感知编码相比,计算感知编码以相似的精度映射到同一区域的架构,提高了下游架构搜索性能(Zhang et al., 2019; White et al., 2020a)。在本文中,我们介绍了一种基于计算感知Transformer的编码方法,称为CATE。与现有基于固定变换的计算感知编码(如路径编码)不同,CATE采用了成对的预训练方案,使用交叉注意的transformer来学习计算感知编码。这种学习编码包含神经结构的密集和上下文化计算信息。在小搜索空间和大搜索空间中,我们比较了在三个主要的编码依赖NAS子程序下,CATE和11种编码方式。我们的实验表明,CATE有利于下游搜索,特别是在大的搜索空间中。此外,外部搜索空间实验证明了它在训练所处的搜索空间之外具有优越的泛化能力。

https://arxiv.org/abs/2102.07108

成为VIP会员查看完整内容
15

相关内容

Transformer是谷歌发表的论文《Attention Is All You Need》提出一种完全基于Attention的翻译架构

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
14+阅读 · 2021年9月29日
专知会员服务
18+阅读 · 2021年9月13日
专知会员服务
38+阅读 · 2021年8月20日
专知会员服务
33+阅读 · 2021年8月16日
【ICML2021】具有线性复杂度的Transformer的相对位置编码
专知会员服务
24+阅读 · 2021年5月20日
专知会员服务
81+阅读 · 2021年5月10日
【CVPR2021】用Transformers无监督预训练进行目标检测
专知会员服务
56+阅读 · 2021年3月3日
【CVPR2020】用多样性最大化克服单样本NAS中的多模型遗忘
Transformer中的相对位置编码
AINLP
5+阅读 · 2020年11月28日
WWW 2020 开源论文 | 异构图Transformer
PaperWeekly
13+阅读 · 2020年4月3日
进一步改进GPT和BERT:使用Transformer的语言模型
机器之心
16+阅读 · 2019年5月1日
Transformer-XL:释放注意力模型的潜力
谷歌开发者
31+阅读 · 2019年2月19日
CMU、谷歌提出Transformer-XL:学习超长上下文关系
机器之心
9+阅读 · 2019年1月18日
EMNLP 2018 | 为什么使用自注意力机制?
机器之心
8+阅读 · 2018年9月17日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
9+阅读 · 2021年2月8日
Arxiv
6+阅读 · 2019年7月11日
Arxiv
11+阅读 · 2019年6月19日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
VIP会员
相关VIP内容
专知会员服务
14+阅读 · 2021年9月29日
专知会员服务
18+阅读 · 2021年9月13日
专知会员服务
38+阅读 · 2021年8月20日
专知会员服务
33+阅读 · 2021年8月16日
【ICML2021】具有线性复杂度的Transformer的相对位置编码
专知会员服务
24+阅读 · 2021年5月20日
专知会员服务
81+阅读 · 2021年5月10日
【CVPR2021】用Transformers无监督预训练进行目标检测
专知会员服务
56+阅读 · 2021年3月3日
【CVPR2020】用多样性最大化克服单样本NAS中的多模型遗忘
相关资讯
相关论文
Arxiv
17+阅读 · 2021年3月29日
Arxiv
9+阅读 · 2021年2月8日
Arxiv
6+阅读 · 2019年7月11日
Arxiv
11+阅读 · 2019年6月19日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
微信扫码咨询专知VIP会员