Transformers 在自然语言处理(NLP)任务中是普遍存在的,但由于计算量大,很难部署到硬件上。为了在资源受限的硬件平台上实现低延迟推理,我们提出使用神经架构搜索设计硬件感知转换器(HAT)。我们首先构造了一个具有任意编码-解码器关注和异构层的大设计空间。然后我们训练一个超级Transformers,它能覆盖设计空间中的所有候选Transformers ,并有效地产生许多具有重量共享的次级Transformers。最后,我们执行带有硬件延迟约束的进化搜索,以找到专用于在目标硬件上快速运行的专用子转换器。对四种机器翻译任务的大量实验表明,HAT可以发现不同硬件(CPU、GPU、IoT设备)的有效模型。在Raspberry Pi-4上运行WMT’14翻译任务时,HAT可以实现3×加速,3.7×比基准Transformer小;2.7×加速,比进化后的Transformer小3.6倍,搜索成本低12,041倍,没有性能损失。

成为VIP会员查看完整内容
24

相关内容

【CVPR2020】用多样性最大化克服单样本NAS中的多模型遗忘
【伯克利】再思考 Transformer中的Batch Normalization
专知会员服务
41+阅读 · 2020年3月21日
专知会员服务
45+阅读 · 2020年3月6日
【Google】利用AUTOML实现加速感知神经网络设计
专知会员服务
30+阅读 · 2020年3月5日
Reformer:一个高效的 Transformer
TensorFlow
9+阅读 · 2020年2月13日
进一步改进GPT和BERT:使用Transformer的语言模型
机器之心
16+阅读 · 2019年5月1日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
用于神经机器翻译的全并行文本生成
全球人工智能
7+阅读 · 2017年11月13日
Arxiv
6+阅读 · 2019年7月11日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
VIP会员
微信扫码咨询专知VIP会员