Transformer深至1000层还能稳定训练，微软实习生一作，LSTM之父转发

会员服务 ·

Transformer深至1000层还能稳定训练，微软实习生一作，LSTM之父转发

2022 年 3 月 3 日 量子位

博雯发自凹非寺
量子位 | 公众号 QbitAI

近几年，随着业内“大力出奇迹”的趋势，Transformer的模型参数量也是水涨船高。

不过，当参数从数百万增加至数十亿，甚至数万亿，性能实现相应提升时，Transformer的深度也受到了训练不稳定的限制。

至少，还没有优化方法能在Transformer扩展至上千层的同时，还保证其稳定性。

但现在，微软研究院一篇论文出手，直接将Transformer提升到了1000层：

所采用的方法，甚至只需要修改几行代码就能完成。

LSTM之父，获得IEEE CIS 2021年神经网络先驱奖的Sepp Hochreiter也转发了这项研究：

接下来，我们就来一起看看这一方法到底是如何做到的。

几行代码提升至1000层

要解决不稳定优化的问题，首先要知道其原因。

论文认为，这种不稳定性源于训练开始时“爆炸式”的模型更新。

这会使模型陷入一种局部最优状态，增加每个LN（Layer Normalization）的输入量，通过LN的梯度会随着训练变得越来越小，从而导致梯度消失，使模型难以摆脱一开始的局部最优状态。

最终破坏了优化的稳定性。

因此，基于这一问题，开发者残差连接处引入了一个新的归一化函数，DeepNorm：

△DeepNorm伪代码

DeepNorm在执行层归一化之前up-scale了残差连接，在不同架构下具有不同的参数：

这一函数将Post-LN的良好性能和Pre-LN的稳定训练高效结合了起来，最终将Transformer扩展到2500个注意力和前馈网络子层（即1000层）比以前的模型深度高出一个数量级。

将DeepNorm方法应用到Transformer的每一个子层中，就得到了一个全新的DeepNet模型。

事实证明，相较于已有的优化方法Post-LN，DeepNet的模型更新几乎保持恒定：

△基于IWSLT-14 De-En翻译数据集的训练

除此之外，开发者也将DeepNet与NormFormer、ReZero、DS-init等多个Transformer模型进行比较，结果在WMT-17 En-De数据集上，DeepNet在多个深度上都效果最好：

与Facebook AI的M2M模型（120亿参数量、48层）相比，DeepNet（32亿参数量、200层）实现了5 BLEU值的提升。

最后，论文作者之一的董力也现身说明，整体而言，这一研究的价值就是：

1、扩展到1000层增加深度是为了探究上限

2、DeepNorm方法对浅层的Transformer也有稳定作用

作者介绍

论文两位共同一作Hongyu Wang和Shuming Ma，其中Hongyu Wang为微软研究院的一名实习生，并在此期间完成了论文。

而Shuming Ma（马树铭）本科和研究生皆毕业于北京大学，2019年加入微软亚洲研究院，现在是NLP组的一名研究员。

通讯作者为微软亚洲研究院NLP小组的首席研究员韦福如，2004年和2009年从武汉大学计算机科学系获得理学士学位和博士学位，曾任职于IBM中国研究中心。

论文：
https://arxiv.org/abs/2203.00555

— 完 —

「人工智能」、「智能汽车」微信社群邀你加入！

欢迎关注人工智能、智能汽车的小伙伴们加入我们，与AI从业者交流、切磋，不错过最新行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

登录查看更多

知识荟萃

精品入门和进阶教程、论文和代码整理等

查看相关VIP内容、论文、资讯等

EMNLP 2021 | 学习改写非自回归机器翻译的翻译结果

专知会员服务

15+阅读 · 2021年12月25日

NeurIPS 2021 | 华为诺亚Oral论文：基于频域的二值神经网络训练方法

专知会员服务

16+阅读 · 2021年12月16日

[ICCV2021]AutoMatch：用于目标跟踪的自动匹配网络设计

专知会员服务

20+阅读 · 2021年8月5日

【WWW2021】归一化硬样本挖掘的双重注意匹配网络

专知会员服务

18+阅读 · 2021年3月31日

【斯坦福CS224N硬核课】Transformers模型详解，50页ppt

专知会员服务

61+阅读 · 2021年2月16日

【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练

专知会员服务

15+阅读 · 2020年10月27日

【ICML 2020】设置LayerNorm使Transformer加速收敛

专知会员服务

16+阅读 · 2020年7月27日

【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型

专知会员服务

26+阅读 · 2020年5月7日

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

专知会员服务

34+阅读 · 2020年4月5日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

重磅！谷歌用扩散模型来生成视频了！刷新SOTA

CVer

1+阅读 · 2022年4月12日

CVPR 2022 | Mobile-Former来了！微软提出：MobileNet+Transformer轻量化并行网络

CVer

0+阅读 · 2022年4月3日

千层Transformer问世！多语种机器翻译水准刷新多项SOTA

新智元

0+阅读 · 2022年3月4日

1000层 Transformer 也能稳定训练？详解微软亚研院提出新工作DeepNet

极市平台

0+阅读 · 2022年3月3日

解决训练难题，1000层的Transformer来了，训练代码很快公开

机器之心

0+阅读 · 2022年3月3日

1000层的Transformer，诞生了！

夕小瑶的卖萌屋

0+阅读 · 2022年3月2日

90.35%准确率！谷歌刚刚开源最大视觉模型V-MoE的全部代码！150亿参数！

CVer

0+阅读 · 2022年1月21日

超越GPT-3！NormFormer：归一化提高预训练、缓解梯度不匹配

PaperWeekly

1+阅读 · 2021年12月2日

如何提升大规模Transformer的训练效果？Primer给出答案

夕小瑶的卖萌屋

0+阅读 · 2021年10月29日

参数少一半，效果还更好，天津大学和微软提出Transformer压缩模型

机器之心

15+阅读 · 2019年7月13日

基于脉冲系统方法的事件触发网络同步问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度置信网络的图像分类方法研究

国家自然科学基金

2+阅读 · 2013年12月31日

井地重磁数据三维联合快速反演研究

国家自然科学基金

0+阅读 · 2013年12月31日

机器翻译中大规模异类特征的迁移学习

国家自然科学基金

2+阅读 · 2013年12月31日

基于快速视觉注意模型和深度学习的视觉跟踪

国家自然科学基金

8+阅读 · 2013年12月31日

无线通信系统压缩采样定时同步机制研究

国家自然科学基金

1+阅读 · 2012年12月31日

增量协同过滤模型研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

资源导向型对等网络下服务发现与服务组合的研究

国家自然科学基金

1+阅读 · 2012年12月31日

非线性时滞系统的神经网络稳定控制方法研究

国家自然科学基金

0+阅读 · 2008年12月31日

A posteriori error estimates for hierarchical mixed-dimensional elliptic equations

Arxiv

0+阅读 · 2022年4月19日

Mention Memory: incorporating textual knowledge into Transformers through entity mention attention

Arxiv

0+阅读 · 2022年4月19日

SPTS: Single-Point Text Spotting

Arxiv

0+阅读 · 2022年4月19日

Event Transformer. A sparse-aware solution for efficient event data processing

Arxiv

0+阅读 · 2022年4月18日

Dynamic Position Encoding for Transformers

Arxiv

1+阅读 · 2022年4月18日

What is the optimal schedule for the UEFA Champions League groups?

Arxiv

0+阅读 · 2022年4月11日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

Efficient Transformers: A Survey

Arxiv

23+阅读 · 2020年9月16日

Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers

Arxiv

12+阅读 · 2020年6月23日

CNN+CNN: Convolutional Decoders for Image Captioning

Arxiv

21+阅读 · 2018年5月23日

VIP会员