内存高效差异化变换器建筑搜索 (Memory-Efficient Differentiable Transformer Architecture Search) - 专知论文

会员服务 ·

0

DARTS · 变换 · 可约的 · Networking · Vision ·

2021 年 5 月 31 日

Memory-Efficient Differentiable Transformer Architecture Search

翻译：内存高效差异化变换器建筑搜索

Yuekai Zhao,Li Dong,Yelong Shen,Zhihua Zhang,Furu Wei,Weizhu Chen

from arxiv, Accepted by Findings of ACL 2021

Differentiable architecture search (DARTS) is successfully applied in many vision tasks. However, directly using DARTS for Transformers is memory-intensive, which renders the search process infeasible. To this end, we propose a multi-split reversible network and combine it with DARTS. Specifically, we devise a backpropagation-with-reconstruction algorithm so that we only need to store the last layer's outputs. By relieving the memory burden for DARTS, it allows us to search with larger hidden size and more candidate operations. We evaluate the searched architecture on three sequence-to-sequence datasets, i.e., WMT'14 English-German, WMT'14 English-French, and WMT'14 English-Czech. Experimental results show that our network consistently outperforms standard Transformers across the tasks. Moreover, our method compares favorably with big-size Evolved Transformers, reducing search computation by an order of magnitude.

翻译：不同的建筑搜索( DARTS) 成功地应用在许多视觉任务中。但是, 直接使用 DARTS 进行变换是记忆密集的, 这使得搜索进程无法进行。为此, 我们提出一个多功能可逆网络, 并将其与 DARTS 合并。具体地说, 我们设计了一个反向转换与重建的算法, 这样我们只需要保存最后一个层的输出。通过减轻 DARTS 的记忆负担, 它允许我们用更大的隐藏大小和更多的候选操作来搜索。我们用三个序列到顺序的数据集, 即 WMT' 14 英德、 WMT' 14 英法英法和WMT' 14 英文- 捷克文来评估搜索结构。实验结果显示, 我们的网络始终超越了任务中的标准变换器。此外, 我们的方法比大型变换器要好得多, 将搜索量减少一个数量级。

0

相关内容

DARTS

最新《神经架构搜索NAS》教程，33页pdf

最新《神经架构搜索NAS》教程，33页pdf

专知会员服务

27+阅读 · 2020年12月2日

最新《Transformers模型》教程，64页ppt

最新《Transformers模型》教程，64页ppt

专知会员服务

324+阅读 · 2020年11月26日

【ICML 2020】设置LayerNorm使Transformer加速收敛

专知会员服务

16+阅读 · 2020年7月27日

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

专知会员服务

33+阅读 · 2020年4月1日

50+篇《神经架构搜索NAS》2020论文合集

专知会员服务

61+阅读 · 2020年3月19日

【Google】神经架构搜索（Neural Architecture Search and Beyond），Barret Zoph

【Google】神经架构搜索（Neural Architecture Search and Beyond），Barret Zoph

专知会员服务

31+阅读 · 2019年11月25日

【Google大脑Sara Sabour】胶囊架构（Capsule Architectures），附47页ppt

【Google大脑Sara Sabour】胶囊架构（Capsule Architectures），附47页ppt

专知会员服务

39+阅读 · 2019年11月24日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

【新书】Python编程基础，669页pdf

【新书】Python编程基础，669页pdf

专知会员服务

197+阅读 · 2019年10月10日

【Google出品】神经网络结构搜索NAS，41页ppt了解最新进展

【Google出品】神经网络结构搜索NAS，41页ppt了解最新进展

专知

27+阅读 · 2019年11月21日

最新246篇自动化神经网络搜索（NAS）论文，附完整列表PDF下载

最新246篇自动化神经网络搜索（NAS）论文，附完整列表PDF下载

专知

17+阅读 · 2019年9月20日

BERT/Transformer/迁移学习NLP资源大列表

BERT/Transformer/迁移学习NLP资源大列表

专知

19+阅读 · 2019年6月9日

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

AINLP

40+阅读 · 2019年6月9日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

AutoML与轻量模型大列表

AutoML与轻量模型大列表

专知

8+阅读 · 2019年4月29日

已删除

将门创投

4+阅读 · 2019年4月1日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

【论文推荐】最新十篇机器翻译相关论文—自然语言推理、无监督神经机器翻译、多任务学习、局部卷积、图卷积、多语种机器翻译

【论文推荐】最新十篇机器翻译相关论文—自然语言推理、无监督神经机器翻译、多任务学习、局部卷积、图卷积、多语种机器翻译

专知

15+阅读 · 2018年5月1日

【学习】Hierarchical Softmax

【学习】Hierarchical Softmax

机器学习研究会

4+阅读 · 2017年8月6日

NAS-BERT: Task-Agnostic and Adaptive-Size BERT Compression with Neural Architecture Search

Arxiv

8+阅读 · 2021年5月30日

Contrastive Neural Architecture Search with Neural Architecture Comparators

Arxiv

4+阅读 · 2021年4月6日

Neural Architecture Search with Random Labels

Arxiv

8+阅读 · 2021年1月28日

Few-shot Neural Architecture Search

Arxiv

8+阅读 · 2020年6月15日

The Evolved Transformer

The Evolved Transformer

Arxiv

5+阅读 · 2019年1月30日

Latent Multi-task Architecture Learning

Arxiv

3+阅读 · 2018年11月19日

Neural Architecture Optimization

Neural Architecture Optimization

Arxiv

8+阅读 · 2018年9月5日

Neural Architecture Search: A Survey

Arxiv

12+阅读 · 2018年9月5日

MnasNet: Platform-Aware Neural Architecture Search for Mobile

Arxiv

4+阅读 · 2018年7月31日

DARTS: Differentiable Architecture Search

Arxiv

3+阅读 · 2018年6月24日

VIP会员

文章信息

相关主题

相关VIP内容

最新《神经架构搜索NAS》教程，33页pdf

最新《神经架构搜索NAS》教程，33页pdf

专知会员服务

27+阅读 · 2020年12月2日

最新《Transformers模型》教程，64页ppt

最新《Transformers模型》教程，64页ppt

专知会员服务

324+阅读 · 2020年11月26日

【ICML 2020】设置LayerNorm使Transformer加速收敛

专知会员服务

16+阅读 · 2020年7月27日

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

专知会员服务

33+阅读 · 2020年4月1日

50+篇《神经架构搜索NAS》2020论文合集

专知会员服务

61+阅读 · 2020年3月19日

【Google】神经架构搜索（Neural Architecture Search and Beyond），Barret Zoph

【Google】神经架构搜索（Neural Architecture Search and Beyond），Barret Zoph

专知会员服务

31+阅读 · 2019年11月25日

【Google大脑Sara Sabour】胶囊架构（Capsule Architectures），附47页ppt

【Google大脑Sara Sabour】胶囊架构（Capsule Architectures），附47页ppt

专知会员服务

39+阅读 · 2019年11月24日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

【新书】Python编程基础，669页pdf

【新书】Python编程基础，669页pdf

专知会员服务

197+阅读 · 2019年10月10日

热门VIP内容

开通专知VIP会员享更多权益服务

《科研智能：人工智能赋能工业仿真研究报告（2025年）》

具身智能中的世界模型：全面综述

【NeurIPS2025】迈向开放世界的三维“物体性”学习

【博士论文】用于排序与扩散模型的安全、高效与鲁棒强化学习

相关资讯

【Google出品】神经网络结构搜索NAS，41页ppt了解最新进展

【Google出品】神经网络结构搜索NAS，41页ppt了解最新进展

专知

27+阅读 · 2019年11月21日

最新246篇自动化神经网络搜索（NAS）论文，附完整列表PDF下载

最新246篇自动化神经网络搜索（NAS）论文，附完整列表PDF下载

专知

17+阅读 · 2019年9月20日

BERT/Transformer/迁移学习NLP资源大列表

BERT/Transformer/迁移学习NLP资源大列表

专知

19+阅读 · 2019年6月9日

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

AINLP

40+阅读 · 2019年6月9日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

AutoML与轻量模型大列表

AutoML与轻量模型大列表

专知

8+阅读 · 2019年4月29日

已删除

将门创投

4+阅读 · 2019年4月1日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

【论文推荐】最新十篇机器翻译相关论文—自然语言推理、无监督神经机器翻译、多任务学习、局部卷积、图卷积、多语种机器翻译

【论文推荐】最新十篇机器翻译相关论文—自然语言推理、无监督神经机器翻译、多任务学习、局部卷积、图卷积、多语种机器翻译

专知

15+阅读 · 2018年5月1日

【学习】Hierarchical Softmax

【学习】Hierarchical Softmax

机器学习研究会

4+阅读 · 2017年8月6日

相关论文

NAS-BERT: Task-Agnostic and Adaptive-Size BERT Compression with Neural Architecture Search

Arxiv

8+阅读 · 2021年5月30日

Contrastive Neural Architecture Search with Neural Architecture Comparators

Arxiv

4+阅读 · 2021年4月6日

Neural Architecture Search with Random Labels

Arxiv

8+阅读 · 2021年1月28日

Few-shot Neural Architecture Search

Arxiv

8+阅读 · 2020年6月15日

The Evolved Transformer

The Evolved Transformer

Arxiv

5+阅读 · 2019年1月30日

Latent Multi-task Architecture Learning

Arxiv

3+阅读 · 2018年11月19日

Neural Architecture Optimization

Neural Architecture Optimization

Arxiv

8+阅读 · 2018年9月5日

Neural Architecture Search: A Survey

Arxiv

12+阅读 · 2018年9月5日

MnasNet: Platform-Aware Neural Architecture Search for Mobile

Arxiv

4+阅读 · 2018年7月31日

DARTS: Differentiable Architecture Search

Arxiv

3+阅读 · 2018年6月24日

微信扫码咨询专知VIP会员