【ICML 2020】设置LayerNorm使Transformer加速收敛 - 专知

会员服务 ·

0

【ICML 2020】设置LayerNorm使Transformer加速收敛

2020 年 7 月 27 日 专知

近年来，Transformer 网络结构已经在自然语言处理的各项任务中都取得了“屠榜”的成绩。然而 Transformer 结构的优化非常困难，其具体表现有 warm-up 阶段超参数敏感、优化过程收敛速度慢等问题。近日，中科院、北京大学和微软亚洲研究院的研究员们在国际机器学习大会 ICML 2020 上发表了题为“On the Layer Normalization in the Transformer Architecture”的论文（点击阅读原文查看），从理论上详细分析了 Transformer 结构优化困难的原因，并给出了解决方法，可以让 Transformer 彻底摆脱 warm-up 阶段，并且大幅加快训练的收敛速度。

由于 Transformer 优化困难的阶段是在训练的初始阶段，warm-up 也只是在迭代的前若干轮起作用，因此我们从模型的初始化阶段开始探究原因。如图3（a）所示，原始 Transformer 结构的每一层中分别经过了带残差连接的 Multi-Head Attention 和 FFN 两个子层（sub-layer），在两子层之后分别放置了层归一化（Layer Normalization）层，即 Post-LN Transformer。

图3：(a) Post-LN Transformer；(b) Pre-LN Transformer

当采用 Xavier[4] 方法对 Post-LN Transformer 进行初始化后，通过对各隐层梯度值进行分析可以证明，在初始化点附近的 Post-LN Transformer 结构最后一层的梯度值非常大，同时随着反向传播的前传会导致梯度值迅速衰减。这种在各层之间不稳定的梯度分布必然会影响优化器的收敛效果，导致训练过程初始阶段的不稳定。造成 Post-LN Transformer 梯度分布出现问题的核心原因在于各子层之后的 Layer Normalization 层会使得各层的输入尺度与层数 L 无关，因此当 Layer Normalization 对梯度进行归一化时，也与层数 L 无关。

将 Layer Normalization 放到残差连接中的两个子层之前，并且在整个网络最后输出之前也增加一个 Layer Normalization 层来对梯度进行归一化，我们称这样的结构为 Pre-LN Transformer[5][6]，如图3(b)所示。

https://www.zhuanzhi.ai/paper/a798ae5bde292d05518cafaa94018dc1

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“LNT” 可以获取《【ICML 2020】设置LayerNorm使Transformer加速收敛》专知下载链接索引

专 · 知

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程视频资料和与专家交流咨询！

点击“阅读原文”，了解使用专知，查看5000+AI主题知识资料

登录查看更多

0

相关内容

Transformer

Transformer是谷歌发表的论文《Attention Is All You Need》提出一种完全基于Attention的翻译架构

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

图神经网络架构，稳定性，可迁移性

专知会员服务

29+阅读 · 2020年8月8日

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

专知会员服务

90+阅读 · 2020年7月22日

【ICML2020】最小化验证损失代理来搜索最佳神经网络结构

专知会员服务

24+阅读 · 2020年7月13日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【AAAI 2019】双曲异构信息网络嵌入，Hyperbolic Heterogeneous Information Network Embedding

【AAAI 2019】双曲异构信息网络嵌入，Hyperbolic Heterogeneous Information Network Embedding

专知会员服务

60+阅读 · 2020年6月28日

【ACL2020-CMU】预训练模型权重攻击，Weight Poisoning Attacks on PTM

【ACL2020-CMU】预训练模型权重攻击，Weight Poisoning Attacks on PTM

专知会员服务

12+阅读 · 2020年4月16日

为什么批处理规范会导致梯度爆炸，Why Batch Norm Causes Exploding Gradients

为什么批处理规范会导致梯度爆炸，Why Batch Norm Causes Exploding Gradients

专知会员服务

17+阅读 · 2020年4月2日

【伯克利】再思考 Transformer中的Batch Normalization

【伯克利】再思考 Transformer中的Batch Normalization

专知会员服务

41+阅读 · 2020年3月21日

【伯克利】通过增大模型加速Transformer训练和推理

专知会员服务

45+阅读 · 2020年3月6日

【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

专知会员服务

51+阅读 · 2020年2月16日

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

专知

45+阅读 · 2020年7月22日

【CVPR2020-亚马逊】后向兼容表示学习，BackwardCompatible RepresentationLearning

【CVPR2020-亚马逊】后向兼容表示学习，BackwardCompatible RepresentationLearning

专知

9+阅读 · 2020年3月27日

【芝加哥大学】可变形的风格转移，Deformable Style Transfer

【芝加哥大学】可变形的风格转移，Deformable Style Transfer

专知

20+阅读 · 2020年3月26日

【论文笔记】通过自注意力网络的动态图表示学习

【论文笔记】通过自注意力网络的动态图表示学习

专知

90+阅读 · 2019年12月2日

PyTorch 学习笔记（七）：PyTorch的十个优化器

PyTorch 学习笔记（七）：PyTorch的十个优化器

极市平台

8+阅读 · 2019年5月19日

赛尔原创 | AAAI 2019 Gaussian Transformer: 一种自然语言推理的轻量方法

赛尔原创 | AAAI 2019 Gaussian Transformer: 一种自然语言推理的轻量方法

哈工大SCIR

13+阅读 · 2019年5月6日

Self-Attention GAN 中的 self-attention 机制

Self-Attention GAN 中的 self-attention 机制

PaperWeekly

12+阅读 · 2019年3月6日

【最新综述】模型压缩与加速（附论文全文下载）

【最新综述】模型压缩与加速（附论文全文下载）

专知

28+阅读 · 2019年2月14日

Pytorch作者Adam Paszke-53页Pytorch教程PPT

Pytorch作者Adam Paszke-53页Pytorch教程PPT

专知

34+阅读 · 2018年10月27日

从Seq2seq到Attention模型到Self Attention（一）

从Seq2seq到Attention模型到Self Attention（一）

量化投资与机器学习

76+阅读 · 2018年10月8日

Weight Poisoning Attacks on Pre-trained Models

Weight Poisoning Attacks on Pre-trained Models

Arxiv

5+阅读 · 2020年4月14日

Data Augmentation using Pre-trained Transformer Models

Arxiv

17+阅读 · 2020年3月4日

AlignTTS: Efficient Feed-Forward Text-to-Speech System without Explicit Alignment

AlignTTS: Efficient Feed-Forward Text-to-Speech System without Explicit Alignment

Arxiv

3+阅读 · 2020年3月4日

On Layer Normalization in the Transformer Architecture

Arxiv

4+阅读 · 2020年2月12日

Graph Transformer Networks

Arxiv

15+阅读 · 2020年2月5日

Multi-Scale Self-Attention for Text Classification

Arxiv

4+阅读 · 2019年12月2日

Sparse Sequence-to-Sequence Models

Sparse Sequence-to-Sequence Models

Arxiv

5+阅读 · 2019年5月14日

Universal Transformers

Universal Transformers

Arxiv

5+阅读 · 2019年3月5日

Towards Understanding Regularization in Batch Normalization

Towards Understanding Regularization in Batch Normalization

Arxiv

4+阅读 · 2018年9月27日

Multi-task Learning of Pairwise Sequence Classification Tasks Over Disparate Label Spaces

Arxiv

3+阅读 · 2018年4月9日

VIP会员

相关主题

相关VIP内容

图神经网络架构，稳定性，可迁移性

专知会员服务

29+阅读 · 2020年8月8日

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

专知会员服务

90+阅读 · 2020年7月22日

【ICML2020】最小化验证损失代理来搜索最佳神经网络结构

专知会员服务

24+阅读 · 2020年7月13日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【AAAI 2019】双曲异构信息网络嵌入，Hyperbolic Heterogeneous Information Network Embedding

【AAAI 2019】双曲异构信息网络嵌入，Hyperbolic Heterogeneous Information Network Embedding

专知会员服务

60+阅读 · 2020年6月28日

【ACL2020-CMU】预训练模型权重攻击，Weight Poisoning Attacks on PTM

【ACL2020-CMU】预训练模型权重攻击，Weight Poisoning Attacks on PTM

专知会员服务

12+阅读 · 2020年4月16日

为什么批处理规范会导致梯度爆炸，Why Batch Norm Causes Exploding Gradients

为什么批处理规范会导致梯度爆炸，Why Batch Norm Causes Exploding Gradients

专知会员服务

17+阅读 · 2020年4月2日

【伯克利】再思考 Transformer中的Batch Normalization

【伯克利】再思考 Transformer中的Batch Normalization

专知会员服务

41+阅读 · 2020年3月21日

【伯克利】通过增大模型加速Transformer训练和推理

专知会员服务

45+阅读 · 2020年3月6日

【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

专知会员服务

51+阅读 · 2020年2月16日

热门VIP内容

开通专知VIP会员享更多权益服务

兵棋系统文档：联合战区级模拟-全球行动（JTLS-GO®）

【普林斯顿博士论文】面向人本机器人学的安全与学习博弈论融合

从无人机到数据：揭示边缘计算作为新作战域

综述：机器嗅觉与嵌入式人工智能正在塑造新的全球传感产业

相关资讯

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

专知

45+阅读 · 2020年7月22日

【CVPR2020-亚马逊】后向兼容表示学习，BackwardCompatible RepresentationLearning

【CVPR2020-亚马逊】后向兼容表示学习，BackwardCompatible RepresentationLearning

专知

9+阅读 · 2020年3月27日

【芝加哥大学】可变形的风格转移，Deformable Style Transfer

【芝加哥大学】可变形的风格转移，Deformable Style Transfer

专知

20+阅读 · 2020年3月26日

【论文笔记】通过自注意力网络的动态图表示学习

【论文笔记】通过自注意力网络的动态图表示学习

专知

90+阅读 · 2019年12月2日

PyTorch 学习笔记（七）：PyTorch的十个优化器

PyTorch 学习笔记（七）：PyTorch的十个优化器

极市平台

8+阅读 · 2019年5月19日

赛尔原创 | AAAI 2019 Gaussian Transformer: 一种自然语言推理的轻量方法

赛尔原创 | AAAI 2019 Gaussian Transformer: 一种自然语言推理的轻量方法

哈工大SCIR

13+阅读 · 2019年5月6日

Self-Attention GAN 中的 self-attention 机制

Self-Attention GAN 中的 self-attention 机制

PaperWeekly

12+阅读 · 2019年3月6日

【最新综述】模型压缩与加速（附论文全文下载）

【最新综述】模型压缩与加速（附论文全文下载）

专知

28+阅读 · 2019年2月14日

Pytorch作者Adam Paszke-53页Pytorch教程PPT

Pytorch作者Adam Paszke-53页Pytorch教程PPT

专知

34+阅读 · 2018年10月27日

从Seq2seq到Attention模型到Self Attention（一）

从Seq2seq到Attention模型到Self Attention（一）

量化投资与机器学习

76+阅读 · 2018年10月8日

相关论文

Weight Poisoning Attacks on Pre-trained Models

Weight Poisoning Attacks on Pre-trained Models

Arxiv

5+阅读 · 2020年4月14日

Data Augmentation using Pre-trained Transformer Models

Arxiv

17+阅读 · 2020年3月4日

AlignTTS: Efficient Feed-Forward Text-to-Speech System without Explicit Alignment

AlignTTS: Efficient Feed-Forward Text-to-Speech System without Explicit Alignment

Arxiv

3+阅读 · 2020年3月4日

On Layer Normalization in the Transformer Architecture

Arxiv

4+阅读 · 2020年2月12日

Graph Transformer Networks

Arxiv

15+阅读 · 2020年2月5日

Multi-Scale Self-Attention for Text Classification

Arxiv

4+阅读 · 2019年12月2日

Sparse Sequence-to-Sequence Models

Sparse Sequence-to-Sequence Models

Arxiv

5+阅读 · 2019年5月14日

Universal Transformers

Universal Transformers

Arxiv

5+阅读 · 2019年3月5日

Towards Understanding Regularization in Batch Normalization

Towards Understanding Regularization in Batch Normalization

Arxiv

4+阅读 · 2018年9月27日

Multi-task Learning of Pairwise Sequence Classification Tasks Over Disparate Label Spaces

Arxiv

3+阅读 · 2018年4月9日

大家都在搜

2025最新文献

NTU博士论文

蓝牙安全攻防

朱克爱德华兹家族

无人机航拍交通事故现场勘查处置系统——行业第一的警用事故处理软件

微信扫码咨询专知VIP会员