Transformers Assemble（PART I）

2020 年 2 月 21 日 深度学习自然语言处理

点击上方，选择星标或置顶，每天给你送干货！

阅读大概需要16分钟

跟随小博主，每天进步一丢丢

来自：NewBeeNLP

写在前面

最近特别时期积极响应国家号召，宅在家没事干就捣鼓捣鼓公众号玩，刚好比较空就把之前的一些论文笔记搬运上来吧。之后也会佛系更新人工智能&自然语言处理方面相关内容，欢迎上车关注一波~

经过之前一段时间的 NLP Big Bang，现在相对比较平静了，Transformer 派已经占据了绝对的主导地位，在各类应用中表现出色。看标题大家也可以猜个差不多，整理了一系列自《Attention is all you need》之后的对 Vanilla Transformer 的改进论文，和大家一起梳理整个发展过程。这篇是第一趴，都来自ICLR。OK，来看看今天的 Transformers：

「Bi-BloSAN from UTS，ICLR2018」
「Universal Transformers from UVA&Google，ICLR2019」
「Reformer from Google，ICLR2020」

BI-DIRECTIONAL BLOCK SELF-ATTENTION FOR FASTAND MEMORY-EFFICIENT SEQUENCE MODELING^[1]

这篇论文首先分析了目前几大类特征抽取器 CNN、RNN、Attention 的优缺点，针对其不足提出了一种对 self-attention 的改进，「双向分块自注意力机制（bidirectional block self-attention (Bi-BloSA)）」。

1.1 Masked Block Self-Attention

其最主要的组件是「掩码分块自注意力机制（masked block self-attention (mBloSA)）」，基本思想是将序列分成几个等长的 block（必要时进行 padding），对每个单独的 block 内应用 self-attention（「intra-block SAN」）捕获局部特征，然后对所有 block 输出再应用 self-attention（「inter-block SAN」）捕获全局特征。这样，每个 attention 只需要处理较短的序列，与传统的 attention 相比可以节省大量的内存。最后通过 Context fusion 模块将块内 SAN、块间 SAN 与原始输入结合生成最终上下文表示。整体框架如下图所示：

1.2 Masked Self-Attention

在传统的 self-attention 中时序信息是很难编码进去的，通过对某些位置进行掩码可以实现位置信息的融合，流程如下图。

而建模双向信息，只需要将上式最后一项修改即可得到前向和后向 SAN

1.3 Bi-directional Block Self-Aattention Network

最终将上述模块整合后得到的网络框架如下图。实验工作也非常充分，在九大公开数据集的多类 NP 任务中取得 SOTA，同时模型的计算和内存更高效。

1.4 Reference

Code Here ^[2]

UNIVERSAL TRANSFORMERS^[3]

上一篇论文针对的是 Transformer 内存占用大、对长序列输入不友好的缺陷，除此之外，这篇论文指出其还存在着以下几个问题：

丢弃了 RNN 的归纳偏置（Inductive Bias），而这对一些任务至关重要（EMNLP 2018 ^[4]的一篇文章对比了 Transformer 和 LSTM 得出该结论）。Inductive Bias 也可以理解为「Prior Knowledge」，可以用来预测从未遇到的输入的输出，即模型泛化的能力。（refer：Inductive Bias in Recurrent Neural Networks ^[5]）。
由于固定了 Transformer 的层数，使得模型计算低效。对于一个输入，有些部分是比较好理解的，有些部分是比较含糊不清的，如果采取相同的计算会导致无效计算。
原始 Transformer 是非图灵完备的。（这块没仔细看下面不会涉及）

针对以上存在的不足，论文提出了一种 Transformer 的改进模型：「Universal Transformer（UT）」，如下图所示。乍一看与 Transformer 非常相似（不同的地方在下图用红框框起来会在下文介绍），下面我们来仔细看看 UT 是如何解决上述缺陷的。

2.1 Parallel-in-Time Recurrence Mechanism

原始的 Transformer 堆叠层数是固定的（6 层或 12 层），为了结合 RNN 的优势，对每一个 token 设置了一个 Transition Function（「参数共享」），并且可以一次一次循环迭代计算（Transformer 是对 attention 层后直接输入一个 Dense Layer）。如下图，横坐标是输入序列的 token，纵坐标是循环迭代次数 Depth。每一次迭代是在整个序列上进行的，不同于 RNN 需要从左往右依次计算，大大提高了计算效率。当迭代次数 Depth 人为固定时，就变成了原始 Transformer。

假设输入为长度为的序列，第次循环后有：

其中 Transition Function 可以是深度可分离卷积^[6] 也可以是全连接。

2.2 Coodinate Embeddings

在上面公式中有一个，指的是两种 embedding，（position，time）：

「position embedding」和原始 Transformer 的一样；
「timestep embedding」，其实本质上和 position embedding 一样，只不过这里是关注于循环步数，因为不同的循环次数学习的是不同层面的知识，这一信息可以提供给模型学习了几次，什么时候该停止；

2.3 Dynamic Halting

正如前面所说的，输入中的某些部分需要更多次的计算模型才可以理解。例如最常见的I went to the bank to deposit money里bank一词就需要更多次的运算。在 UT 中引入了Adaptive Computation Time (ACT)^[7]来实现，ACT 可以基于模型在每步循环中预测的标量「halting probability」，动态调制处理每个输入 token 所需的计算步骤数（即响应时间「ponder time」）。UT 将动态 ACT 暂停机制分别应用于每个位置，一旦特定的循环块停止，它将其状态复制到下一个步骤，直到所有块都停止，或者直到达到最大步数为止，编码器的最终输出是以此方式产生的最后一层表示。Dynamic Halting 策略流程可以概括为：

在第步循环时，有第步的 halting probability、第步的 token state 以及提前设置的超参停止阈值；
利用 UT 计算当前 token state；
利用全连接层和 sigmoid 激活函数计算 ponder time，ponder time 表示模型对每个 token 还需要多少次运算的预测；
判断每个 token 当前是否需要停止，规则为：当 (halting probability + pondering) > halt threshold 时，停止；
当 (halting probability + pondering) ≤ halt threshold 时，继续运算；
对于那些仍然在运算的 token，更新停止概率： halting probability += pondering；
当所有位置都停止或者模型达到循环最大步数时，结束。

整体流程如下面动图所示。

2.4 Reference

Code Here ^[8]
Moving Beyond Translation with the Universal Transformer ^[9]

REFORMER: THE EFFICIENT TRANSFORMER^[10]

传统的 Transformer 仍然存在着一些问题，比如内存占用大、计算复杂度大、无法较好处理长文本等。针对以上不足，本文作者提出了一种更为高效的 Transformer，该方法的主要目标是能够处理更长的上下文窗口，同时减少计算量和提高内存效率，具体做法如下:

:boom:局部敏感哈希注意力替代传统注意力，将复杂度从降低为；
使用可逆层（reversible layers），在训练过程中只存储单层激活值，而不是 N 次；
将 FF 层中的激活进行切分并分块处理

3.1 关于注意力机制

Scaled Dot-Product Attention

Transformer 中最关键的部分就是其注意力机制，原始自注意力机制通过三个不同的映射矩阵将输入表示为 Q、K、V 三部分，然后计算下式：

详细解释可以参考**illustrated-transformer**^[11]、**illustrated-self-attention**^[12]。

Memory-Efficient Attention

但是根据上式计算会发现模型占用内存非常大，主要问题在于，假定 Q、K、V 的形状为，那么项的维度为。举个栗子，对于一个长度为 64K 的序列，即使 batc*size 为 1，这也会是一个的矩阵，并且序列越长，占用的内存会越大，这无疑会极大地限制 Transformer 的性能。但是注意，我们并不需要计算整个 Q，而可以选择对 Q 中的每一个 query 单独计算即可，然后在需要 BP 的时候再算一次（emmmm 感觉像是工程实现上的 trick）。虽然这样做不那么 computation-efficient，但是比较 memory-efficient，可以处理更长的序列。

Locality-Sensitive Hashing Attention

LSH attention 使用的是共享 Q、K 策略，这样可以有效降低内存占用，并且下图实验显示共享策略并不会比原始策略效果差。注意到最终是会经过一个 softmax 函数，而 softmax 结果的关键在于那些比较大的输入，因此对于每一个 query ，我们只需要关注 K 中与其最接近的元素即可。那么问题是如何找到最接近的那些呢？这里就需要用到「局部敏感哈希」，简单来说就是使用哈希函数将邻近的向量以高概率映射到同一个哈希值，而距离远的向量高概率映射不到同一个哈希值。更具体地，文中使用的 LSH 哈希策略如下图：最终 LSH Attention 的整体流程如下所示，① 局部敏感哈希分桶，不同的颜色代表不同的桶，相同的颜色代表相近的向量；② 序列重排，将具有相同颜色的向量放在一起；③ 切分序列，方便并行化计算；④ 在分出来的更小的区块中应用 attention，为了防止溢出向量，会考虑前一个 chunk 中的元素进行 attention

3.2 关于内存

虽然通过 LSH 策略降低了 attention 的复杂度，但是由于模型通常包含好多层，导致在训练过程中保存的中间值数量也非常巨大。为此，Reformer 使用了可逆 Transformer，不在内存中保存所有的值，而是在反向传播时按需计算得出，思想借鉴于RevNet^[13]的可逆层。

（a）传统残差网络：上一层的激活用于更新下一层的输入。（b）可逆残差网络：维护两组激活值，每层只更新其中的一组。 ; （c）反向：只需要减去激活值就可以恢复任意中间值明白了上述思想，在 Reformer 中就是将 Attention 层和 FeedForward 层带入 F 和 G 即可。

3.3 reference

Code Here ^[14]
Reformer 应用 ^[15]
Reformer: The Efficient Transformer ^[16]
Reddit 上关于 Reformer 的讨论 ^[17]

本来还打算再加上 Transformer-XL 的，啊太长了就算了吧....

为了整个有留言的公众号也是等了好久，用起来用起来！

最后大家一定注意防护！！

本文参考资料

[1]

BI-DIRECTIONAL BLOCK SELF-ATTENTION FOR FASTAND MEMORY-EFFICIENT SEQUENCE MODELING: https://arxiv.org/abs/1804.00857

[2]

Code Here: https://github.com/taoshen58/BiBloSA

[3]

UNIVERSAL TRANSFORMERS: https://arxiv.org/abs/1807.03819

[4]

EMNLP 2018: http://xxx.itp.ac.cn/abs/1803.03585

[5]

nductive Bias in Recurrent Neural Networks: https://link.springer.com/chapter/10.1007/3-540-45720-8_39

[6]

深度可分离卷积: https://arxiv.org/abs/1610.02357

[7]

Adaptive Computation Time (ACT): https://arxiv.org/abs/1603.08983

[8]

Code Here: https://github.com/tensorflow/tensor2tensor/blob/master/tensor2tensor/models/research/universal_transformer.py

[9]

Moving Beyond Translation with the Universal Transformer: https://ai.googleblog.com/2018/08/moving-beyond-translation-with.html

[10]

REFORMER: THE EFFICIENT TRANSFORMER: https://openreview.net/forum?id=rkgNKkHtvB

[11]

「illustrated-transformer」: https://jalammar.github.io/illustrated-transformer/

[12]

「illustrated-self-attention」: https://towardsdatascience.com/illustrated-self-attention-2d627e33b20a

[13]

RevNet: http://xxx.itp.ac.cn/abs/1707.04585

[14]

Code Here: https://github.com/google/trax/tree/master/trax/models/reformer

[15]

Reformer 应用: https://colab.research.google.com/github/google/trax/blob/master/trax/models/reformer/image_generation.ipynb

[16]

Reformer: The Efficient Transformer: https://ai.googleblog.com/2020/01/reformer-efficient-transformer.html

[17]

Reddit 上关于 Reformer 的讨论: https://www.reddit.com/r/MachineLearning/comments/eg1wr3/reformer_the_efficient_transformer_anonymous_et/fc8um57/

投稿或交流学习，备注： 昵称-学校（公司）-方向，进入DL&NLP交流群。

方向有很多：机器学习、深度学习，python，情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

推荐阅读：

【ACL 2019】腾讯AI Lab解读三大前沿方向及20篇入选论文

【一分钟论文】IJCAI2019 | Self-attentive Biafﬁne Dependency Parsing

【一分钟论文】 NAACL2019-使用感知句法词表示的句法增强神经机器翻译

【一分钟论文】Semi-supervised Sequence Learning半监督序列学习

【一分钟论文】Deep Biaffine Attention for Neural Dependency Parsing

详解Transition-based Dependency parser基于转移的依存句法解析器

经验 | 初入NLP领域的一些小建议

学术 | 如何写一篇合格的NLP论文

干货 | 那些高产的学者都是怎样工作的？

一个简单有效的联合模型

近年来NLP在法律领域的相关研究工作

让更多的人知道你“在看”

登录查看更多

相关内容

自注意力机制

关注 9

基于Transformer嵌入模型的个性化产品搜索，A Transformer-based Embedding Model for Personalized Product Search

专知会员服务

31+阅读 · 2020年5月20日

【CVPR2020-中科院计算所】弱监督语义分割的自监督等价注意力机制，Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation

专知会员服务

76+阅读 · 2020年4月10日

【伯克利】通过增大模型加速Transformer训练和推理

专知会员服务

45+阅读 · 2020年3月6日

Transformer文本分类代码

专知会员服务

118+阅读 · 2020年2月3日

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

专知会员服务

43+阅读 · 2020年1月28日

【芝加哥大学】GRAPH-BERT: Only Attention is Needed for Learning Graph Representations

专知会员服务

85+阅读 · 2020年1月15日

BERT进展2019四篇必读论文

专知会员服务

69+阅读 · 2020年1月2日

【清华大学】Bert 简介，Bidirectional Encoder Representations from Transformers，21页ppt

专知会员服务

79+阅读 · 2019年12月29日

【论文】使用编码器进行命名实体识别（TENER: Adapting Transformer Encoder for Named Entity Recognition）

专知会员服务

52+阅读 · 2019年12月28日

【文章|自注意力(self-attention)机制图解】《Illustrated: Self-Attention》by Raimi Karim

专知会员服务

45+阅读 · 2019年11月18日

用Attention玩转CV，一文总览自注意力语义分割进展

机器之心

14+阅读 · 2019年8月26日

BERT源码分析PART I

AINLP

38+阅读 · 2019年7月12日

一文详解Google最新NLP模型XLNet

PaperWeekly

18+阅读 · 2019年7月1日

推理速度快千倍！谷歌开源语言模型Transformer-XL

AI前线

9+阅读 · 2019年1月26日

BERT大火却不懂Transformer？读这一篇就够了

大数据文摘

11+阅读 · 2019年1月8日

《pyramid Attention Network for Semantic Segmentation》

统计学习与视觉计算组

44+阅读 · 2018年8月30日

DeepLab V3

计算机视觉战队

9+阅读 · 2018年4月2日

BranchOut: Regularization for Online Ensemble Tracking with CNN

统计学习与视觉计算组

9+阅读 · 2017年10月7日

论文共读 | Attention is All You Need

黑龙江大学自然语言处理实验室

14+阅读 · 2017年9月7日

Attention is All You Need | 每周一起读

PaperWeekly

10+阅读 · 2017年6月28日

Talking-Heads Attention

Arxiv

15+阅读 · 2020年3月5日

Multi-Scale Self-Attention for Text Classification

Arxiv

4+阅读 · 2019年12月2日

RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds

Arxiv

11+阅读 · 2019年11月25日

Language Modeling with Deep Transformers

Arxiv

6+阅读 · 2019年7月11日

Cross-Modal Self-Attention Network for Referring Image Segmentation

Arxiv

18+阅读 · 2019年4月9日

Universal Transformers

Arxiv

5+阅读 · 2019年3月5日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

R-VQA: Learning Visual Relation Facts with Semantic Attention for Visual Question Answering

Arxiv

7+阅读 · 2018年5月24日

Attention-based Ensemble for Deep Metric Learning

Arxiv

17+阅读 · 2018年4月2日

Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation

Arxiv

8+阅读 · 2018年2月7日

VIP会员

Transformers Assemble（PART I）

写在前面

BI-DIRECTIONAL BLOCK SELF-ATTENTION FOR FASTAND MEMORY-EFFICIENT SEQUENCE MODELING[1]

1.1 Masked Block Self-Attention

1.2 Masked Self-Attention

1.3 Bi-directional Block Self-Aattention Network

1.4 Reference

UNIVERSAL TRANSFORMERS[3]

2.1 Parallel-in-Time Recurrence Mechanism

2.2 Coodinate Embeddings

2.3 Dynamic Halting

2.4 Reference

REFORMER: THE EFFICIENT TRANSFORMER[10]

3.1 关于注意力机制

Scaled Dot-Product Attention

Memory-Efficient Attention

Locality-Sensitive Hashing Attention

3.2 关于内存

3.3 reference

本文参考资料

相关内容

BI-DIRECTIONAL BLOCK SELF-ATTENTION FOR FASTAND MEMORY-EFFICIENT SEQUENCE MODELING^[1]

UNIVERSAL TRANSFORMERS^[3]

REFORMER: THE EFFICIENT TRANSFORMER^[10]