Dropout视角下的MLM和MAE：一些新的启发

2021 年 12 月 6 日 PaperWeekly

©PaperWeekly 原创 · 作者 |苏剑林

单位 |追一科技

研究方向 |NLP、神经网络

大家都知道，BERT 的 MLM（Masked Language Model）任务在预训练和微调时的不一致，也就是预训练出现了 [MASK] 而下游任务微调时没有 [MASK]，是经常被吐槽的问题，很多工作都认为这是影响 BERT 微调性能的重要原因，并针对性地提出了很多改进，如 XL-NET [1]、ELECTRA [2]、MacBERT [3] 等。

本文我们将从 Dropout 的角度来分析 MLM 的这种不一致性，并且提出一种简单的操作来修正这种不一致性。同样的分析还可以用于何凯明最近提出的比较热门的 MAE（Masked Autoencoder）模型，结果是 MAE 相比 MLM 确实具有更好的一致性，由此我们可以引出一种可以能加快训练速度的正则化手段。

Dropout

首先，我们重温一下 Dropout。从数学上来看，Dropout 是通过伯努利分布来为模型引入随机噪声的操作，所以我们也简单复习一下伯努利分布。

伯努利分布

伯努利分布（Bernoulli Distribution）算得上是最简单的概率分布了，它是一个二元分布，取值空间是，其中取 1 的概率为，取 0 的概率为，记为

伯努利分布的一个有趣的性质是它的任意阶矩都为，即

所以我们知道它的均值为，以及方差为

训练和预测

Dropout 在训练阶段，将会以将某些值置零，而其余值则除以，所以 Dropout 事实上是引入了随机变量，使得模型从变成。其中可以有多个分量，对应多个独立的伯努利分布，但大多数情况下其结果跟是标量是没有本质区别，所以我们只需要针对是标量时进行推导。

在《又是Dropout两次！这次它做到了有监督任务的SOTA》中我们证明过，如果损失函数是 MSE，那么训练完成后的最佳预测模型应该是

这意味着我们应该要不关闭 Dropout 地预测多次，然后将预测结果进行平均来作为最终的预测结果，即进行“模型平均”。但很显然这样做计算量很大，所以实际中我们很少会用这种做法，更多的是直接关闭 Dropout，即将改为 1。而我们知道

所以关闭 Dropout 事实上是一种“权重平均”（将视为模型的随机权重）。也就是说，理论的最优解是“模型平均”，但由于计算量的原因，我们通常用“权重平均”来近似，它可以视为“模型平均”的一阶近似。

MLM模型

在这一节中，我们将 MLM 模型视为一种特殊的 Dropout，由此可以清楚描述地预训练和微调的不一致之处，并且可以导出一个简单的修正策略，可以更好地缓解这种不一致性。

Dropout视角

简单起见，我们先来分析一个简化版本的 MLM：假设在预训练阶段，每个 token 以的概率保持不变，以的概率被替换为 [MASK]，并且第个 token 的 Embedding 记为，[MASK] 的 Embedding 记为，那么我们可以同样引入随机变量，将 MLM 的模型记为

这样，MLM 跟 Dropout 本质是相同的，它们都是通过伯努利分布给模型引入了随机扰动。现在，按照 Dropout 的常规用法，它的预测模型应该是“权重平均”，即

此时，MLM 在微调阶段的不一致性就体现出来了：我们将预训练的 MLM 视为一种特殊的 Dropout，那么微调阶段对应的是“取消 Dropout”，按照常规做法，此时我们应该将每个 token 的 Embedding 改为，但事实上我们没有，而是保留了原始的。

修正Embedding

按照 BERT 的默认设置，在训练 MLM 的时候，会有 15% 的 token 被选中来做 MLM 预测，而在这 15% 的 token 中，有 80% 的概率被替换为[MASK]，有 10% 的概率保持不变，剩下10%的概率则随机替换为一个随机 token，这样根据上述分析，我们在 MLM 预训练完成之后，应该对 Embedding 进行如下调整：

其中是 [MASK] 的 Embedding，而的全体 token 的平均 Embedding。在 bert4keras 中，参考代码如下：

embeddings = model.get_weights()[0]  # 一般第一个权重就是Token Embedding
v1 = embeddings[tokenizer._token_mask_id][None]  # [MASK]的Embedding
v2 = embeddings.mean(0)[None]  # 平均Embedding
embeddings = 0.85 * embeddings + 0.15 * (0.8 * v1 + 0.1 * embeddings + 0.1 * v2)  # 加权平均
K.set_value(model.weights[0], embeddings)  # 重新赋值

那么，该修改是否跟我们期望的那样有所提升呢？笔者在 CLUE 上对比了 BERT 和 RoBERTa 修改前后的实验结果（baseline代码参考《bert4keras在手，baseline我有：CLUE基准代码》 [4] ），结论是“没有显著变化”。

看到这里，读者也许会感到失望：敢情你前面说那么多都是白说了？笔者认为，上述操作确实是可以缓解预训练和微调的不一致性的（否则我们不是否定了Dropout？）；至于修改后的效果没有提升，意味着这种不一致性的问题并没有我们想象中那么严重，至少在 CLUE 的任务上是这样。

一个类似的结果出现的 MacBERT 中，它在预训练阶段用近义词来代替 [MASK] 来修正这种不一致性，但笔者也在用同样的 baseline 代码测试过 MacBERT，结果显示它跟 RoBERTa 也没显著差别。因此，也许只有在特定的任务或者更大的 mask 比例下，才能显示出修正这种不一致性的必要性。

MAE模型

不少读者可能已经听说过何凯明最近提出的 MAE（Masked Autoencoder） [5] 模型，它以一种简单高效的方式将 MLM 任务引入到图像的预训练之中，并获得了有效的提升。在这一节中，我们将会看到，MAE 同样可以作为一种特殊的 Dropout 来理解，从中我们可以得到一种防止过拟合的新方法。

Dropout视角

如下图所示，MAE 将模型分为 encoder 和 decoder 两部分，并且具有“encoder深、decoder 浅”的特点，然后它将 [MASK] 只放到 decoder 中，而 encoder 不处理 [MASK]。这样一来，encoder 要处理的序列就变短了，最关键的一步是，MAE 使用了 75% 的 mask 比例，这意味着 encoder 的序列长度只有通常的 1/4，加上“encoder 深、decoder 浅”的特点，总的来说模型的预训练速度快了 3 倍多！

▲ MAE模型示意图

我们也可以从另一个角度来实现 MAE 模型：MAE 把 [MASK] 从 encoder 中移除，这等价于剩下的 token 不与被 mask 掉的 token 交互，而对于 Transformer 模型来说，token 之间的交互来源于Self Attention，所以我们依然可以保持原始输入，但在 Attention 矩阵中 mask 掉对应的列。如图所示，假设第个 token 被 mask 掉，事实上就相当于 Attention 矩阵的第列的所有元素被强制置 0：

▲ MAE的等价Attention Dropout示意图

当然，从实用的角度看，这种做法纯粹是浪费算力，但它有助于我们得到一个有意思的理论结果。我们设有的输入 token，原始的 Attention 矩阵为（softmax 后的），定义为一个矩阵，它的第列为 0、其余都为 1，然后定义随机矩阵，它以的概率为全1矩阵，以的概率为，那么 MAE 模型可以写成

这里是指将矩阵重新按行归一化；时逐个元素对应相乘；当有多个 Attention 层时，各个 Attention 层共用同一批。

这样，我们将 MAE 转换为了一种特殊的 Attention Dropout。那么同样按照微调阶段“取消 Dropout”的做法，我们知道它对应的模型应该是

其中第二个等号是因为是一个第列为、其余为 1 的矩阵，那么

事实上就是一个全为的矩阵，所以与相乘的结果等价于直接乘以常数；第三个等号则是因为全体元素乘以同一个常数，不影响归一化结果。

从这个结果中看到，对于 MAE 来说，“取消Dropout”之后跟原模型一致，这说明了 MAE 相比原始的 MLM 模型，不仅仅是速度上的提升，还具有更好的预训练与微调的一致性。

防止过拟合

反过来想，既然 MAE 也可以视为一种 Dropout，而 Dropout 有防止过拟合的作用，那么我们能不能将 MAE 的做法当作一种防止过拟合的正则化手段来使用呢？如下图所示，在训练阶段，我们可以随机扔掉一些 token，但要保持剩余 token 的原始位置，我们暂且称之为“DropToken”：

▲ DropToken示意图

之所以会这样想，是因为常规的 Dropout 虽然通常被直接地理解为采样一个子网络训练，但那纯粹是直观的想象，实际上 Dropout 的加入还会降低训练速度，而 DropToken 由于显式了缩短了序列长度，是可以提高训练速度的，如果有效那必然是一种非常实用的技巧。此外，有些读者可能已经试过删除某些字词的方式来进行数据扩增，它跟 DropToken 的区别在于 DropToken 虽然删除了一些 Token，但依然保留了剩余 token 的原始位置，这个实现依赖于 Transformer 结构本身。

在 CLUE 上做的几个实验对比，基准模型为 BERT base，下标的数字是 drop 比例，最终的效果参差不齐，除了 IFLYTEK 明确有效外，其他看缘分（其实很多防止过拟合手段都这样），最优 drop 比例在 0.1～0.15 之间：

本文小结

本文从 Dropout 的视角考察了MLM 和 MAE两个模型，它们均可视为特殊的 Dropout，从这个视角中，我们可以得到了一种修正 MLM 的不一致性的技巧，以及得到一种类似 MAE 的防止过拟合技巧。

参考文献

[ 1] https://arxiv.org/abs/1906.08237

[2] https://arxiv.org/abs/2003.10555

[3] https://arxiv.org/abs/2004.13922

[4] https:// kexue.fm/archives/8739

[5] https://arxiv.org/abs/2111.06377

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

登录查看更多

相关内容

暂退法

关注 0

ICLR 2022 | BEIT论文解读：将MLM无监督预训练应用到CV领域

专知会员服务

33+阅读 · 2022年3月24日

WWW 2022 ：基于纯MLP架构的序列推荐模型

专知会员服务

16+阅读 · 2022年3月20日

NeurIPS 2021 | 华为诺亚Oral论文：基于频域的二值神经网络训练方法

专知会员服务

16+阅读 · 2021年12月16日

图神经网络元学习

专知会员服务

97+阅读 · 2021年5月25日

2021机器学习研究风向是啥？MLP→CNN→Transformer→MLP！

专知会员服务

67+阅读 · 2021年5月23日

【普林斯顿】机器学习数学视角，63页ppt

专知会员服务

88+阅读 · 2020年11月6日

最新《因果推断导论: 从机器学习视角》新书稿，132页pdf

专知会员服务

279+阅读 · 2020年8月25日

【2020 最新论文】对比学习中什么应该不是对比的？

专知会员服务

39+阅读 · 2020年8月16日

【伯克利】再思考 Transformer中的Batch Normalization

专知会员服务

41+阅读 · 2020年3月21日

最大均方差正则化贝叶斯神经网络，Bayesian Neural Networks With Maximum Mean Discrepancy Regularization

专知会员服务

54+阅读 · 2020年3月5日

为什么深度学习是非参数的？

THU数据派

1+阅读 · 2022年3月29日

PyTorch 51.BatchNorm和Dropout层的不协调现象

极市平台

0+阅读 · 2022年2月19日

矩阵视角下的Transformer详解（附代码）

PaperWeekly

3+阅读 · 2022年1月4日

ChildTuning：试试把Dropout加到梯度上去？

PaperWeekly

0+阅读 · 2021年11月30日

模型优化漫谈：BERT的初始标准差为什么是0.02？

PaperWeekly

0+阅读 · 2021年11月26日

R-Drop：填补Dropout缺陷，简单又有效的正则方法

微软研究院AI头条

0+阅读 · 2021年7月21日

对ResNet本质的一些思考

极市平台

26+阅读 · 2019年4月27日

解读 | 得见的高斯过程

机器学习算法与Python学习

14+阅读 · 2019年2月13日

详解常见的损失函数

七月在线实验室

20+阅读 · 2018年7月12日

干货 | 深度学习之损失函数与激活函数的选择

机器学习算法与Python学习

15+阅读 · 2017年9月18日

方差正则化的分类模型选择方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

高斯序列与过程的极值理论

国家自然科学基金

2+阅读 · 2015年12月31日

随机信息下的一些函数恢复问题

国家自然科学基金

0+阅读 · 2013年12月31日

非线性扩散方程定性研究的一些新问题

国家自然科学基金

0+阅读 · 2013年12月31日

电磁散射中的无穷曲面锥形散射问题及其反问题

国家自然科学基金

0+阅读 · 2013年12月31日

肺癌治疗中微分方程模型的建立及其动力学性质研究

国家自然科学基金

0+阅读 · 2013年12月31日

慢性应激对肿瘤术后复发和转移的影响及机制探讨

国家自然科学基金

0+阅读 · 2013年12月31日

仿射技巧在复几何的应用

国家自然科学基金

0+阅读 · 2012年12月31日

泛函不等式与随机微分方程上的大偏差问题

国家自然科学基金

0+阅读 · 2012年12月31日

严重干扰和噪声情况下的虹膜识别方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

Model Reduction via Dynamic Mode Decomposition

Arxiv

0+阅读 · 2022年4月20日

Reflash Dropout in Image Super-Resolution

Arxiv

0+阅读 · 2022年4月20日

Computing Maximum Likelihood Estimates for Gaussian Graphical Models with Macaulay2

Arxiv

0+阅读 · 2022年4月19日

Fourier Image Transformer

Arxiv

2+阅读 · 2022年4月19日

Low-Dose CT Denoising via Sinogram Inner-Structure Transformer

Arxiv

1+阅读 · 2022年4月18日

Accurate ADMET Prediction with XGBoost

Arxiv

0+阅读 · 2022年4月15日

A Statistical Decision-Theoretical Perspective on the Two-Stage Approach to Parameter Estimation

Arxiv

0+阅读 · 2022年4月15日

Incremental Prompting: Episodic Memory Prompt for Lifelong Event Detection

Arxiv

0+阅读 · 2022年4月15日

Flexible Marginal Models for Dependent Data

Arxiv

0+阅读 · 2022年4月14日

Masked Autoencoders Are Scalable Vision Learners

Arxiv

27+阅读 · 2021年11月11日

VIP会员