Differentiable architecture search (DARTS) is successfully applied in many vision tasks. However, directly using DARTS for Transformers is memory-intensive, which renders the search process infeasible. To this end, we propose a multi-split reversible network and combine it with DARTS. Specifically, we devise a backpropagation-with-reconstruction algorithm so that we only need to store the last layer's outputs. By relieving the memory burden for DARTS, it allows us to search with larger hidden size and more candidate operations. We evaluate the searched architecture on three sequence-to-sequence datasets, i.e., WMT'14 English-German, WMT'14 English-French, and WMT'14 English-Czech. Experimental results show that our network consistently outperforms standard Transformers across the tasks. Moreover, our method compares favorably with big-size Evolved Transformers, reducing search computation by an order of magnitude.


翻译:不同的建筑搜索( DARTS) 成功地应用在许多视觉任务中。 但是, 直接使用 DARTS 进行变换是记忆密集的, 这使得搜索进程无法进行。 为此, 我们提出一个多功能可逆网络, 并将其与 DARTS 合并。 具体地说, 我们设计了一个反向转换与重建的算法, 这样我们只需要保存最后一个层的输出。 通过减轻 DARTS 的记忆负担, 它允许我们用更大的隐藏大小和更多的候选操作来搜索。 我们用三个序列到顺序的数据集, 即 WMT' 14 英德、 WMT' 14 英法英法和WMT' 14 英文- 捷克文来评估搜索结构 。 实验结果显示, 我们的网络始终超越了任务中的标准变换器。 此外, 我们的方法比大型变换器要好得多, 将搜索量减少一个数量级。

0
下载
关闭预览

相关内容

最新《神经架构搜索NAS》教程,33页pdf
专知会员服务
26+阅读 · 2020年12月2日
最新《Transformers模型》教程,64页ppt
专知会员服务
306+阅读 · 2020年11月26日
专知会员服务
15+阅读 · 2020年7月27日
专知会员服务
60+阅读 · 2020年3月19日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
【新书】Python编程基础,669页pdf
专知会员服务
193+阅读 · 2019年10月10日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
AutoML与轻量模型大列表
专知
8+阅读 · 2019年4月29日
已删除
将门创投
4+阅读 · 2019年4月1日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
8+阅读 · 2021年1月28日
Arxiv
8+阅读 · 2020年6月15日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
Arxiv
3+阅读 · 2018年11月19日
Neural Architecture Optimization
Arxiv
8+阅读 · 2018年9月5日
Arxiv
12+阅读 · 2018年9月5日
Arxiv
3+阅读 · 2018年6月24日
VIP会员
相关VIP内容
最新《神经架构搜索NAS》教程,33页pdf
专知会员服务
26+阅读 · 2020年12月2日
最新《Transformers模型》教程,64页ppt
专知会员服务
306+阅读 · 2020年11月26日
专知会员服务
15+阅读 · 2020年7月27日
专知会员服务
60+阅读 · 2020年3月19日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
【新书】Python编程基础,669页pdf
专知会员服务
193+阅读 · 2019年10月10日
相关资讯
相关论文
Arxiv
8+阅读 · 2021年1月28日
Arxiv
8+阅读 · 2020年6月15日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
Arxiv
3+阅读 · 2018年11月19日
Neural Architecture Optimization
Arxiv
8+阅读 · 2018年9月5日
Arxiv
12+阅读 · 2018年9月5日
Arxiv
3+阅读 · 2018年6月24日
Top
微信扫码咨询专知VIP会员