NAACL 2019 tutorial 完整呈现
翻译 | 栗 峰
校对 | 杨晓凡
4、跨语言预训练
预训练的一个主要作用是它可以帮助我们跨越数字语言间鸿沟,使我们能够为全世界超过 6000 种语言都学习到 NLP 模型。
跨语言学习的工作大多集中在训练不同语言中的单词嵌入,并学习如何使它们之间匹配度更高 (Ruder 等人,2019);同样地,我们也可以对上下文表征做同样的事情(Schuster 等人,2019)。
另一种常见方法是共享子单词词汇表并在多种语言上训练一个模型(Devlin,Artetxe,Schwenk,Mulcaire,Lample 和 Conneau 等人,2019)。虽然这很容易实现,并且是一个很强大的跨语言基线,但它导致资源配置较低的语言代表性不足(Heinzerling 和 Strube,2019)。特别是多语言 BERT 已成为备受关注的话题(Pires,Wu 和 Dredze 等人,2019),虽然它有很好的零样本学习表现,但专门的单语模型仍然是具有极大竞争力的,同时也更有效率 (Eisenschlos 等人,2019)。
5、实际权衡
预训练很费钱。
我们在教程中使用的 Transformer-XL 样式模型的预训练在 8 个 V100 gpu 上花费了 5-20 小时 (如果是 1 个 V100 那么就要花费几天的时间) 才能达到一个好的效果。因此,共享预训练的模型非常重要。
除了需要为 transformer 的学习速率预热外,预训练对超参数的选择并不怎么挑剔。一般来说,如果数据集足够大,模型就不应该有足够的容量来进行过度拟合。掩蔽语言建模 (如 BERT 中所述) 的训练速度通常比标准 LM 慢 2-4 倍,因为掩蔽一小部分单词对应着只有一小部分的训练指导信号。
三、表征中都有什么
我们已经证明,表征可以用来预测某些语言现象,如翻译或句法层次的匹配。使用语法进行预训练,能够取得较好的效果;即使没有明显地对语法进行编码,表征仍然可以学习到一些语法概念 (Williams 等人,2018)。
最近的工作进一步表明,当前最先进的模型可以有效地蒸馏出语法知识 (Kuncoro 等人.,2019)。网络架构通常决定了表征的内容。例如,已经观察到了 BERT 能够捕捉语法 (Tenney 等人)。对于捕捉到的信息,不同的模型架构会表现出不同的层间变化趋势。
图 7:探究工作一般用于设置研究语境词表示中的语言知识 (Liu 等人,2019)
模型捕获的信息还取决于你如何看待它:可视化激活或是注意力权重能提供模型知识的总体情况,但只能针对几个样本进行分析;如果在学习到的表征基础上训练一个分类器作为探针,用它来预测某些属性,这种方法可以发现语料库级别的一些具体特点,但也可能引入探针本身带来的偏倚;最后,网络对照试验对于改进模型非常有用,但得到的结论可能会仅限于当前的任务。
四、适配
为了使预训练模型适应目标任务,我们可以做出若干不同方向上的决策:架构修改,优化方案以及是否要获得更多的学习信号。
1、架构修改
对于架构修改,我们有两个选项:
a) 保持预训练的模型内部不变
简单的做法可以是在预训练的模型之上添加一个或多个线性层,通常是在 Bert 基础上增加。或者我们也可以使用模型输出作为另一个模型的输入。当目标任务需要预训练的嵌入有一些交互作用但目前的预训练模型执行不了时,这通常是有帮助的,例如以 BERT 为预训练模型但需要词汇表征或建立跨句子关系模型。
b) 修改预先训练的模型内部架构
我们希望这样做的原因之一可能是为了适应结构不同的设定目标,例如一个具有多个输入序列的任务。在这种情况下,我们可以使用预训练的模型尽可能初始化结构不同的设定模型。
我们还可以应用于特定项目的修改,例如添加、跳过或残余连接或警示。最后,修改目标任务的参数可以通过在预训练的模型层之间添加瓶颈模块 (适配器)来减少需要精细调整的参数数量(Houlsby,Stickland 和 Murray 等人,2019)。
图 8:Transformer模块 (左) 中使用的适配器层 (右)(Houlsby 等人,2019 年)
五、优化方案
在优化模型方面,我们需要选择要更新哪些权重,以及何时、如何更新它们?
1、要更新哪些权重
对于权重更新,我们可以选择微调或者不微调(预训练权重):
a)不要改变预训练的权重(特征提取)
在实际应用中,很多人会在预训练表征的基础上训练一个线性分类器。如果想要获得最好的性能,通常就不仅使用顶层的表征,而要学习层表征的线性组合 (Peters 等人,2018, Ruder 等人,2019)。另一个做法是,预训练的表征可以作为下游模型中的特性。当添加适配器时,只训练适配器层。
图 9:在单独的下游模型中使用预训练的模型作为特征
b)改变预训练过程中的权重(微调)
采用预训练的权值作为下游模型参数的初始化值。然后,在适应阶段对整个预训练架构进行训练。
2、如何以及何时更新权重
选择顺序和如何更新权重的主要目的是要避免覆盖有用的预训练的信息并最大化正迁移。与此相关的是灾难性遗忘的概念 (McCloskey&Cohen,1989;French,1999),是指一个模型忘记了它最初训练的任务。在大多数设置中,我们只关心目标任务的性能,但这可能因应用场合的不同而有所不同。
更新我们模型的参数的一个指导原则是,在时间上、强度上或与预训练的模型相比,自上而下地逐步更新:
a) 时间上的逐步更新(冻结法)
对不同分布和不同任务的数据同时进行所有层的训练可能会导致性能不稳定,产生的解决方案较差。相反,我们单独训练网络中不同的层,让它们有时间适应新的任务和数据。这可以追溯到早期深层神经网络的分层训练 (Hinton 等人,2006;Bengio 等人,2007)。最近的方法 (Felbo 等人,2017;Howard 和 Ruder,2018 年;Chronopoulou 等,2019 年) 的变化主要在于共同训练的层的选择不同。尚未对 transformer 模型的解冻进行详细的研究。
b) 强度上的逐步更新 (降低的学习率)
我们希望通过降低学习率,以避免覆盖有用的信息。较低的学习率在较低层次 (因为它们会捕捉到很多的普遍信息)、训练早期 (因为模型仍然需要适应目标分布) 和训练后期 (当模型接近结尾时) 尤为重要。为此,我们可以使用判别性微调 (Howard 和 Ruder,2018),它降低了每一层的学习速度,如下所示。
图 10:判别性微调 (Howard 和 Ruder,2018 年)
为了在早期的训练中保持较低的学习率,可以使用三角学习速率计划,也就是 transformer 的学习率预热。(Liu 等人,2019) 最近指出,在训练的早期阶段,预热可以减少差异 。
c)逐步更新 vs 预训练模型(正则化)
最大限度地减少异常遗忘的一种方法是鼓励目标模型参数使用正则化项,减小与预训练模型的参数的差异性 (Wiese 等人,CoNLL 2017,Kirkpatrick 等人,PNAS 2017)。
六、权衡与实际考虑
一般来说,需要从头开始训练的参数越多训练速度就越慢。特征提取需要添加比微调更多的参数 (peters 等人,2019),因此训练速度通常较慢。
然而,当一个模型需要适应很多的任务时,特征提取更节省空间,因为它只需要在内存中存储一个预先训练过的模型的副本。适配器通过为每个任务添加少量的附加参数来达到平衡。
就性能而言,没有一种适配器方法能在所有设置中都带来带来最好的表现。如果源和目标任务不一致,特征提取似乎更可取 (Peters 等人,2019)。否则,特征提取和微调通常执行类似的操作,这取决于用于超参数调整的预算 (微调通常需要对超参数进行更广泛的搜索和尝试)。据说,transformer 比 lstms 更容易微调 (对超参数不那么敏感),并且可以通过微调实现更好的性能。
然而,大型的预训练模型 (如 Bert-Large) 在对小训练集的任务进行精细调整时,往往会导致性能退化。通常显示为「ON-off」:如下图所示,模型要么运行良好,要么根本不起作用。想要了解这种行为的条件和原因,目前来说还是一个等待解决的研究问题。
图 11:BERT(红色)和 BERT 的 20 个随机重启的任务分数分布,在 MNLI(绿色)上进行微调,每次任务的微调不超过 5k(Phang 等,2018)。
七、获得更多的学习信号
目标任务通常都缺少资源. 我们通常可以通过组合多种不同的学习信号来提高迁移学习的性能。
1、提高样本效率
如果存在相关的任务,我们可以先在相关任务上使用更多数据对模型进行微调,然后再对目标任务进行微调。这尤其有助于数据有限的情况和执行类似任务 (Phunet 等人,2018),并提高了目标任务的样本效率 (Yogatama 等人,2019)。
2、多任务微调
或者,我们也可以根据相关任务和目标任务的要求对模型进行共同微调。这个相关的任务也可以是一个无监督的辅助任务。语言建模是一个很好的选择,并且已经证明即使没有预训练也能起到帮助 (Rei 等人,2017 年)。任务比率可以进行选择,逐渐减小辅助任务的比例,在训练结束时辅助任务的比例可以减小到 0(Chronopoulou 等人,NAACL,2019 年)。语言模型微调也已经作为一个单独步骤使用在了 ULMFiT 中 (Howard 和 Ruder,2018)。最近,即便有很多个目标任务,多任务微调也可以带来收益 (Liu 等人,2019;Wang 等人,2019)。
3、数据集分割
我们可以使用只在数据的某个子集上训练的辅助任务,而不对辅助任务微调。为此,我们首先要分析模型的误差,采用启发式方法自动识别训练数据中的突出子集,然后与目标任务联合训练辅助任务。
4、半监督学习
我们还可以使用半监督学习方法,通过扰乱未标记的数据来使我们的模型预测更加准确。干扰方式可以是噪声,掩蔽(Clark 等人,2018)也可以是数据增强,(Xie 等人,2019)。
5、集成模型
为了提高性能,可以把不同超参数训练的模型、不同预训练模型精细调节得到的模型、乃至不同任务,不同数据集的子集上训练的模型集成起来
6、蒸馏
最后,大型模型或模型组合可能被提炼成小型单一模型。该模型也可以更加简单化 (Tang 等人,2019 年),也可以产生不同的归纳偏差 (Kuncoro 等人,2019 年)。多任务微调也可以与提炼相结合 (Clark 等人,2019)。
八、下游应用
预训练大型模型在计算和环境影响方面的成本很高 (Strubell 等人,2019 年)。只要有可能,最好使用开源模型。如果您需要训练自己的模型,请与社区分享您的预训练模型。
1、框架和函数库
为了共享和使用经过训练的模型,可以有不同的选择:
Hubs
Hubs 是中央存储库,并能提供访问预训练模型的通用 API。最常见的两个 Hub 是 TensorFlowHub 和 PyTorch Hub。Hub 通常使用起来很简单;但是,由于模型的源代码难以访问,所以它们更像一个黑匣子。此外,修改预训练模型架构的内部结构可能会很困难。
研究者发布的检查点模型
检查点文件通常包含了预训练模型的所有权重。与 Hub 相比,仍然需要创建模型图,需要单独加载模型权重。因此,检查点文件比 Hub 模块更难使用,但它可以让您完全控制模型内部。
第三方函数库
像是 AllenNLP,fast.ai 和 pytorch-transformers 这类的第三方函数库,可以轻松访问预训练模型。此类库通常可实现快速实验,并涵盖了许多经典的示例以进行迁移学习。
九、有待解决的问题及未来发展方向
1、预训练语言模型的缺陷
预训练的语言模型仍然不擅长细粒度的语言任务 (Liu 等人,2019)、层次句法推理 (Kuncoro 等人,2019) 和常识(Zellers 等人,2019)。
在自然语言生成方面仍然有所欠缺,特别是在长期的维系、关系和连贯性方面。微调的时候它们更倾向于过于过度拟合表面形式信息,目前仍然被视为是「效率极高的表面学习者」。
正如我们前面所指出的,特别是对少量数据进行微调的大型模型很难进行优化,而且存在高度的差异性。目前经过预训练的语言模型非常庞大。蒸馏和剪枝是处理这一问题的两种方法。
2、预训练任务
虽然语言建模目标经过试验正名是有效的,但它也有缺陷。最近,我们看到双向语境和词序列的建模尤为重要。也许最重要的是,语言建模鼓励人们关注语法和词的共现,并且只提供了用于理解语义和维系上下文弱信号。我们可以从其他形式的自我监督中汲取灵感。此外,我们还可以设计专门的预训练任务,学习某些关系 (Joshi 等人,2019 年;Sun 等人,2019)。
总的来说,很难能从原始文本中学习某种类型的信息。最新的方法就是将结构化知识 (Zhang 等人,2019;LoganIV 等人,2019) 或多模态 (Sun 等人,2019;Lu 等人,2019) 引入,作为缓解这一问题的两种潜在方式。
via: http://ruder.io/state-of-transfer-learning-in-nlp/
AI研习社独家推出「顶会赞助计划」,为AI学术青年和开发者助力
点击下方 阅读原文 查看详情