打破语言模型黑盒子：谷歌对BERT来了一次「语法测试」

会员服务 ·

打破语言模型黑盒子：谷歌对BERT来了一次「语法测试」

2021 年 12 月 13 日 新智元

新智元报道

编辑：David

【新智元导读】谷歌研究人员对自家BERT模型进行了「语法测试」，结果显示，BERT确实学会了遵循「主谓一致」的语法，但并未将其视作规则，而当成了一种偏好。模型的具体表现取决于动词出现的频率和形式。

近年来，预训练的语言模型，如 BERT 和 GPT-3，在自然语言处理 (NLP) 中得到了广泛应用。通过对大量文本进行训练，语言模型获得了关于世界的广泛知识，在各种 NLP 基准测试中取得了强劲的表现。

然而，这些模型通常是不透明的，不清楚这些模型为何表现如此出色，这就限制了对这些模型进行进一步由假设驱动的改进。要搞清楚这个问题，首先要确定这些模型中包含哪些语言知识。

分析这个问题的基础主题是英语中的主谓一致语法规则，要求动词的语法与主语的语法一致。

例如，句子“「The dogs run」符合语法，因为“dogs”和“run”都是复数形式，但「The dogs runs就不合语法，因为「runs」是动词的单数形式，而主语dogs是复数形式。

目标句法评估 (TSE)是评估语言模型的语言知识的一种框架。 该框架会向语言模型显示差异最小的句子对，一个合乎语法的，一个不合语法的，模型必须确定哪一个句子合乎语法。

这样，TSE可用于测试英语主谓一致规则的知识。

根据这个原则，在 EMNLP 2021 发表的「Frequency Effects on Syntactic Rule-Learning in Transformers」中，谷歌的研究人员考察了 BERT 模型正确应用英语主谓一致规则的能力，如何受单词出现次数的影响模型在预训练期间看到的。

为了测试特定条件，研究人员使用精心控制的数据集，从头开始预训练 BERT 模型。结果发现，BERT在预训练数据中没有一起出现的主谓对句子上取得了良好的表现，这表明模型确实学会了应用主谓一致。

不过，当错误的语法形式比正确形式出现得更频繁时，模型倾向于预测错误形式，这表明 BERT 没有将语法一致性视为必须遵循的规则。这些结果有助于研究人员更好地了解预训练语言模型的优势和局限性。

先前工作回顾：「自然句」与「人造句」

以前，研究人员使用 TSE 来衡量 BERT 模型遵守英语语法中主谓一致的能力。给定动词的单数和复数形式（「runs」和「run」），如果模型正确地学会了应用主谓一致规则，那么它应该始终为使句子在语法上正确的动词形式分配更高的概率。

之前的研究使用「自然句」和「人造句」对 BERT 进行评估，后者是人为构造的语法正确、但在语义上无意义的句子。

这种人造句在测试模型语法能力时很有用，因为模型不能仅仅要依靠表面的语料库统计数据。比如「dogs run」比「dogs running」更常见，但「dogs publish」和「dogs publishes」都是非常罕见的，因此模型不可能简单地记住某些句子出现概率更高这一事实。

BERT 在「人造句」上实现了超过 80% 的准确率（远好于 50% 的随机基线水平）， 这可以视作模型已经学会应用主谓一致规则的证据。

而在这篇新发表的论文中，研究人员通过在特定数据条件下预训练 BERT 模型，超越了之前的水平，可以更深入地研究这些结果，了解预训练数据中的某些模式如何影响BERT的性能。

没见过的「主语-动词」对

研究人员首先研究了模型在预训练期间在主语-动词对上的表现，以及主语和动词未出现在同一个句子中的示例的表现：

BERT 在「自然句」和「人造句」评估上的错误率，根据训练期间是否在同一句子中看到特定的主谓 (SV) 对进行分层。

BERT 的错误率在看不见的主谓句子对时略有增加，但它的表现仍然比朴素的启发式算法好得多，这表明，BERT模型不是只能简单反应其看到的东西，它能够实际学会主谓一致的语法规则。

动词出现频率对BERT性能的影响

接下来，研究人员考察单词的出现频率对BERT正确使用主谓一致规则的影响。

研究人员选择了一组 60 个动词，然后创建了多版本的预训练数据，每个版本都设计为包含特定频率的 60 个动词，确保单复数形式出现相同的次数。然后从这些不同的数据集中训练BERT模型，并在主谓一致任务上对其进行了评估：

BERT 遵循主谓一致规则的能力，取决于训练集中动词出现的频率

这些结果表明，虽然 BERT 能够对主谓一致规则进行建模，但它需要看到一个动词大约 100 次才能可靠地将它与规则一起使用。

动词形式差异对BERT的影响

最后考察动词单复数形式的相对频率如何影响 BERT 的预测。例如，如果动词的一种形式（如combat）比另一种动词形式（combats）出现在预训练数据中的频率高得多，那么 BERT 可能更有可能分配一个高概率到更频繁的形式，即使它在语法上不正确。

为了评估这个指标，再次使用相同的 60 个动词，但这次创建了预训练数据的改动版本，动词形式之间的频率比从 1:1 到 100:1 不等。下图显示了 BERT 在这些不同级别的频率不平衡下的性能：

可见，随着训练数据中动词形式之间的频率比变得更加不平衡，BERT 在合乎语法地使用这些动词的能力出现了下降。

这些结果表明，当两种形式在预训练期间被模型看到相同的次数时，BERT 在预测正确的动词形式方面取得了良好的准确性，但随着动词出现频率的差异增加，模型性能会逐步下滑。

这意味着，即使 BERT 已经学会了如何应用主谓一致性，它也不一定将其当做一个「规则」，而是更倾向于预测高频词，不管它们是否违反了主谓一致性。

结论

本研究使用 TSE 来评估 BERT 的性能，揭示了模型在语法任务上的语言能力。此外还揭示了 BERT 处理判断任务优先级的方式：模型知道主语和动词应该一致，面对高频词时尤为如此，但模型不理解这种一致是必须遵循的规则，而只是当成一种偏好。

研究人员希望，这项工作会对语言模型反映训练数据集的属性方面提供新的见解。

参考资料：

https://ai.googleblog.com/2021/12/evaluating-syntactic-abilities-of.html

https://arxiv.org/pdf/1901.05287.pdf

https://arxiv.org/abs/2109.07020

登录查看更多

相关内容

BERT

关注 101

BERT全称Bidirectional Encoder Representations from Transformers，是预训练语言表示的方法，可以在大型文本语料库（如维基百科）上训练通用的“语言理解”模型，然后将该模型用于下游NLP任务，比如机器翻译、问答。

1370亿参数、接近人类水平，谷歌对话AI模型LaMDA放出论文

专知会员服务

45+阅读 · 2022年1月24日

EMNLP 2021 | 预训练跨语言模型中的大词表构建及使用

专知会员服务

21+阅读 · 2022年1月5日

知识增强预训练语言模型:全面综述

专知会员服务

93+阅读 · 2021年10月19日

【ICML2021】反事实生成模型的语言

专知会员服务

18+阅读 · 2021年9月17日

【ICML2021】通过文本生成统一视觉和语言任务

专知会员服务

19+阅读 · 2021年9月13日

Knowledge In PLM: 语言模型可以作为一种知识库吗？

专知会员服务

30+阅读 · 2021年6月15日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

【斯坦福大学AI】BERT, ELMo， & GPT-2:上下文化的单词表示是怎样的?

专知会员服务

35+阅读 · 2020年3月28日

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

专知会员服务

14+阅读 · 2020年3月27日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

大型语言模型，真的能够理解人类吗？

CSDN

0+阅读 · 2022年1月24日

错误的语法会对BERT模型准确性产生影响吗？

AI前线

0+阅读 · 2022年1月22日

评估语言模型的句法能力

TensorFlow

1+阅读 · 2022年1月11日

谷歌机器智能大牛：AI模型要真正理解人类语言，关键是「序列学习」

新智元

1+阅读 · 2021年12月26日

Transformer性能被高估？DeepMind动态评估模型的时间泛化能力

PaperWeekly

0+阅读 · 2021年11月25日

ACL 2019 | 多语言BERT的语言表征探索

AI科技评论

21+阅读 · 2019年9月6日

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

深度学习与NLP

30+阅读 · 2019年3月30日

3分钟看懂史上最强NLP模型BERT

新智元

23+阅读 · 2019年2月27日

详解谷歌最强NLP模型BERT（理论+实战）

AI100

11+阅读 · 2019年1月18日

谷歌BERT模型深度解析

AINLP

42+阅读 · 2018年11月15日

构式语法的计算模型研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于单语语料的无监督统计机器翻译模型研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于变系数半参数模型的高维数据统计分析

国家自然科学基金

1+阅读 · 2013年12月31日

基于主题模型的枢轴语言统计机器翻译研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于量化输出和信道通讯的系统辨识与状态估计

国家自然科学基金

0+阅读 · 2013年12月31日

用于交互式视频检索的教练式主动学习模型

国家自然科学基金

0+阅读 · 2012年12月31日

大型语义辞典的自动生成及在文本分析中的应用

国家自然科学基金

1+阅读 · 2012年12月31日

基于自动机/形式语言模型的离散事件动态系统状态估计理论

国家自然科学基金

0+阅读 · 2009年12月31日

随机微分方程的逼近

国家自然科学基金

0+阅读 · 2009年12月31日

汉语语义知识获取与语义计算模型研究

国家自然科学基金

0+阅读 · 2009年12月31日

Random Graphs by Product Random Measures

Arxiv

0+阅读 · 2022年4月20日

Impact of Tokenization on Language Models: An Analysis for Turkish

Arxiv

0+阅读 · 2022年4月19日

The Role of Pretrained Representations for the OOD Generalization of Reinforcement Learning Agents

Arxiv

0+阅读 · 2022年4月16日

Polling Latent Opinions: A Method for Computational Sociolinguistics Using Transformer Language Models

Arxiv

0+阅读 · 2022年4月15日

A Survey of Quantization Methods for Efficient Neural Network Inference

Arxiv

22+阅读 · 2021年6月21日

A Survey of Transformers

Arxiv

103+阅读 · 2021年6月8日

Efficient Transformers: A Survey

Arxiv

23+阅读 · 2020年9月16日

Graph Transformer Networks

Arxiv

15+阅读 · 2020年2月5日

Emu: Enhancing Multilingual Sentence Embeddings with Semantic Specialization

Arxiv

10+阅读 · 2019年9月15日

A Structured Self-attentive Sentence Embedding

Arxiv

24+阅读 · 2017年3月9日

VIP会员