Transformer性能被高估？DeepMind动态评估模型的时间泛化能力

会员服务 ·

Transformer性能被高估？DeepMind动态评估模型的时间泛化能力

2021 年 11 月 25 日 PaperWeekly

©PaperWeekly 原创 · 作者 | 王馨月

学校 | 四川大学

研究方向 | 自然语言处理

论文标题：

Mind the Gap: Assessing Temporal Generalization in Neural Language Models

论文链接：

https://arxiv.org/abs/2102.01951

项目地址：

https://github.com/deepmind/deepmind-research/tree/master/pitfalls_static_language_models

这篇论文是 DeepMind 在 NeurIPS 2021上的一篇 spotlight 论文。作者提出，世界是动态的而当前的语言建模是静态的，并证明了 Transformer-XL 语言模型在预测训练期结束一段时间之后的现实设置中的表现和性能会越来越差。仅增加模型大小并不能解决这个问题，但让模型不断用新信息更新知识可以缓解性能随时间的下降，作者认为我们应该重新思考目前训练和评估语言模型的静态方式，并开发能够不断变化的自适应语言模型。作者提出了 WMT 和 ARXIV 数据集上的动态流语言建模基准，以促进考虑时间动态的语言模型评估。

实验

作者首先介绍了时间分层实验设置，该设置检验了 Transformer LM 在对超出其训练期的未来话语进行评估时的表现。

作者进行了两种设置：一是时间分层设置（TIME-STRATIFIED setup），二是控制设置（CONTROL setup）。

TIME-STRATIFIED setup：作者根据过去训练的 LM 预测在其训练数据时间段之后发表的未来文章的能力来评估模型。使用从每个数据集的时间段开始到 2017 年 9 月的所有文档作为训练数据，并使用 2017 年的最后三个月作为验证期，然后在上面的 2018-2019 测试集上评估模型。
CONTROL setup：作者通过将 TIME-STRATIFIED 与 CONTROL 设置进行比较来评估时间分层是否对当前 LM 构成挑战。在这个设置中，训练集包括来自与评估集相同的 2018-2019 时期的文档。这种 CONTROL 设置类似于静态语言建模实验，它在重叠时间段的文本数据上训练和评估 LM。

作者在 ARXIV 摘要数据集和 WMT News Crawl（WMT）数据集上，使用具有 18 层和 1,024 个隐藏单元的 Transformer-XL 进行实验。下图是 Transformer-XL 在使用两种不同设置进行训练时的困惑度。

与评估未来情形的更现实的 TIME-STRATIFIED 设置相比，静态 CONTROL 设置在多大程度上高估了模型性能？如下图所示，尽管在完全相同的数据集大小上使用相同的模型架构训练了两个模型，TIMESTRATIFIED 模型的性能比 CONTROL 模型差高达 16% 的困惑度差异。作者将 CUSTOMNEWS 和 ARXIV 的较高相对退化归因于它们最近新文档的指数增长，导致数据中来自测试期的文档比例更高，因此出现了更困难的时间泛化问题。

在预测远离训练期的未来话语时，Transformer LM 的表现是否越来越差？下图是 TIME-STRATIFIED 相对于 CONTROL 模型的相对困惑度增加。正如所有数据集的上升斜率所证明的那样，当我们要求它预测离训练期更远的数据时，该模型恶化得更多，这表明模型确实随着时间的推移变得越来越过时。作者在文章附录中还提供了一些更详细的差异。

分析

作者提出了这样的问题：模型努力应对的预测类型究竟是什么？

如上一部分的图中展示的，常用名词（橙色）的性能随时间推下降。而对专有名词（蓝色）和数字（紫色）进行时间概括时，TIME-STRATIFIED 模型的性能下降最快。定性分析表明，这个模型在政治领域的实体上表现不佳。而这种退化是因为专有名词及其实体往往与最新的真实世界知识相关，同样，这个模型在文化和社会变化相关的概念上也呈现出明显的退化。

作者还观察到，与围绕生活方式的主题相比，关于政治和体育的模型表现随时间变化更快（图中的三条虚线）。这也是非常符合我们认知的，政治、体育主题的专有名词往往在一段时间内发生很大的变化。

在实践中，适应是在这个动态与非平衡的世界中最大化 LM 的潜力的关键条件，这要求模型能够整合新词、以前从未出现过的概念以及含义随时间发生重大变化的词。在数据集 CUSTOMNEWS 中，每个月都有大约 27% 的独特词。作者将这些词称为新词，并认为这些概念很重要，因为它们反映了我们不断变化的世界的本质。比如近期频繁出现的词语“COVID-19”，这在 2019 年末之前出现的 unigram 概率为 0，却是如今 NLP 系统中一个重要的用例。

作者接着提出：Transformer LM 对于新信息和新词的适应能力如何？如下图，作者展示了 TIME-STRATIFIED 模型在测试文档中第一次和第二次出现新词的困惑度。模型第一次在文档中生成新词时候有很低的 ppl，第二次生成相同的单词时，模型可以简单地从上下文中复制相同的单词，达到很高的 ppl。这也意味着 Transformer 以长程上下文为条件的能力是时间泛化的一个有用的特征。但第一次出现在 Transformer 的内存外时，没有这种现象，这也意味着需要将 Transformer 扩展到更长的序列以改善时间泛化能力。

即使增加模型大小，过时模型的影响依然存在

近期的关于 LM 的研究表明模型大小对于困惑度、下游任务表现以及小样本学习能力都有明显改善作用。但增加模型大小是否也能改善时间泛化能力呢？作者训练了一个更大的 TIME-STRATIFIED 模型，参数为 448M。实验结果如下图所示。

如果增加模型大小能够延缓模型随时间的退化，图中较大模型产生的实线应相比于较小模型产生的虚线具有更小的斜率，但实际上更大的模型对于线的斜率并没有影响。在两个数据上，截止测试结束时，一个更小但更新的模型比一个大 60% 但已经过时的

模型性能更好。因此，构建能够用新信息更新知识的模型比简单增大模型在时间泛化方面的能力提升上更有效。

时间分层问答

作者进一步探讨了过时的 LM 如何影响不同类型的下游任务这一问题。

作者首先测试了闭卷问答（Closed-book QA）任务，作者用 WMT 数据集预训练 TXL 模型进行微调以回答 2011 年的问题，并对 2019 年的相关问题进行评估，结果如下图所示，证明了微调后的 LM 缺乏更新的事实知识将影响模型在闭卷问答任务的表现。

作者还使用 NewsQA 进行了阅读理解实验，其中的证据文档与问题一同呈现在模型前缀中，使用 2009 年的问题评估了 2008 年底前在 CUSTOMNEWS 上训练的 LM 与 2009 年底前训练的 LM 的表现——两种模型表现相同。因此，与知识密集、闭卷式 QA 不同，阅读理解（答案是提取性的并可以从文章中复制）的时间分层评估对过时的 LM 构成的挑战更小。这也和上一部分中举例的 Transformer 的长程上下文能力类似。

保持模型更新：通过动态评估在线学习

减缓 LM 随时间退化的一种方法是，随着新文档到达文档流中，不断用新信息更新模型知识。其中一种解决方案是动态评估，作者在这里使用动态评估来适应发生在按时间排列的文档流中的时间动态，从而适应跨文档的时间趋势。

测试文档的 loss 通过以下公式计算，其中为文档中的 token。

并通过梯度下降来动态更新 Transformer-XL 的参数，如以下公式所示，其中标记动态评估学习率，标记当前文档的模型的参数梯度。

结果如下图所示，在所有的数据集中，动态评估降低了模型变得过时的速度（上升斜率减小）。其中 ARXIV 的改进更明显，对于几周的更细粒度的分析表明，该模型只需要大概一周的数据即可超过 CONTROL 模型。此外，预测新词也有很大的改进。

当为了保持模型保持最新（尤其是对于较大的模型）时，轻量但有效的方法更可取，因为可以使模型以最少的时间与计算成本快速消化新信息。因此，作者尝试仅更新 embedding 层（52M 参数）捕获词汇语义变化，以及仅更新所有层的偏差项（198K 参数）。下图展示了成果，仅更新偏差项的效果几乎与更新完整模型的效果一样。

作者还注意到，单独的动态评估虽然有效，但依旧不能完全解决时间泛化问题。事实上，如下图所示，虽然动态评估能够提高对未来数据的泛化能力，但它也会灾难性地遗忘过去的数据。最近的半参数模型（semi-parametric models）非常适合持续学习，新知识可以存储在外部存储器中，无需重新训练整个模型即可更新。

半参数模型，此处作者指 2020年 ICLM 上 REALM: Retrieval-Augmented Language Model Pre-Training 一文中提出的 REALM 模型。

总结

作者在本文中提出，当前在重叠时间段的数据上进行训练和评估高估了模型对于未来话语的泛化能力，并且 Transformer LM 会随着时间的推移越来越过时，而仅增加模型大小并不难解决这个问题。

作者对未来的 LM 研究提出以下建议：

我们应该评估 LM 对未来数据的泛化能力，这可以避免测试数据污染。应该奖励泛化超出其预训练数据表面模式的模型，以更好地反映大型 LM 在实际系统中的使用情况。因此，我们主张在预训练数据和下游任务中更广泛地包含时间戳信息。
超出训练期的旧 LM 在需要最新事实知识的下游任务上的表现不尽人意。我们还需要更多的任务、基准和指标来评估 LM 整合新信息的能力和速度。
除了做出更大的模型以及相关的扩展工作外，我们还主张开发能够在当前不断变化的世界中不断更新的自适应语言模型。

作者还表明，这篇文章的本意并非证明周围世界随时间推移变化而我们谈论它的方式也相应变化这一显然的状况，作者强调的是当前的静态评估如何高估了模型的性能，尤其在与知识相关的预测方面。我们应该重新思考如何构建时间分割来评估模型泛化到未来数据的能力。

更多阅读