成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
打破语言模型黑盒子:谷歌对BERT来了一次「语法测试」
2021 年 12 月 13 日
新智元
新智元报道
编辑:David
【新智元导读】
谷歌研究人员对自家BERT模型进行了「语法测试」,结果显示,BERT确实学会了遵循「主谓一致」的语法,但并未将其视作规则,而当成了一种偏好。模型的具体表现取决于动词出现的频率和形式。
近年来,预训练的语言模型,如 BERT 和 GPT-3,在自然语言处理 (NLP) 中得到了广泛应用。通过对大量文本进行训练,语言模型获得了关于世界的广泛知识,在各种 NLP 基准测试中取得了强劲的表现。
然而,这些模型通常是不透明的,不清楚这些模型为何表现如此出色,这就限制了对这些模型进行进一步由假设驱动的改进。要搞清楚这个问题,首先要确定这些模型中包含哪些语言知识。
分析这个问题的基础主题是英语中的
主谓一致
语法规则,要求动词的语法与主语的语法一致。
例如,句子“「The dogs run」符合语法,因为“dogs”和“run”都是复数形式,但「The dogs runs就不合语法,因为「runs」是动词的单数形式,而主语dogs是复数形式。
目标句法评估 (TSE)是评估语言模型的语言知识的一种框架。
该框架会向语言模型显示差异最小的句子对,一个合乎语法的,一个不合语法的,模型必须确定哪一个句子合乎语法。
这样,TSE可用于测试英语主谓一致规则的知识。
根据这个原则,在 EMNLP 2021 发表的「Frequency Effects on Syntactic Rule-Learning in Transformers」中,谷歌的研究人员考察了 BERT 模型正确应用英语主谓一致规则的能力,如何受单词出现次数的影响模型在预训练期间看到的。
为了测试特定条件,研究人员使用精心控制的数据集,从头开始预训练 BERT 模型。结果发现,BERT在预训练数据中没有一起出现的主谓对句子上取得了良好的表现,这表明模型确实学会了应用主谓一致。
不过,当错误的语法形式比正确形式出现得更频繁时,模型倾向于预测错误形式,这表明 BERT 没有将语法一致性视为必须遵循的规则。这些结果有助于研究人员更好地了解预训练语言模型的优势和局限性。
先前工作回顾:「自然句」与「人造句
」
以前,研究人员使用 TSE 来衡量 BERT 模型遵守英语语法中主谓一致的能力。给定动词的单数和复数形式(「runs」和「run」),如果模型正确地学会了应用主谓一致规则,那么它应该始终为使句子在语法上正确的动词形式分配更高的概率。
之前的研究使用「自然句」和「人造句」对 BERT 进行评估,后者是人为构造的语法正确、但在语义上无意义的句子。
这种人造句在测试模型语法能力时很有用,因为模型不能仅仅要依靠表面的语料库统计数据。比如「dogs run」比「dogs running」更常见,但「dogs publish」和「dogs publishes」都是非常罕见的,因此模型不可能简单地记住某些句子出现概率更高这一事实。
BERT 在「人造句」上实现了超过 80% 的准确率(远好于 50% 的随机基线水平),
这可以视作模型已经学会应用主谓一致规则的证据。
而在这篇新发表的论文中,研究人员通过在特定数据条件下预训练 BERT 模型,超越了之前的水平,可以更深入地研究这些结果,了解预训练数据中的某些模式如何影响BERT的性能。
没见过的「主语-动词」对
研究人员首先研究了模型在预训练期间在主语-动词对上的表现,以及主语和动词未出现在同一个句子中的示例的表现:
BERT 在「自然句」和「人造句」评估上的错误率,根据训练期间是否在同一句子中看到特定的主谓 (SV) 对进行分层。
BERT 的错误率在看不见的主谓句子对时略有增加,但它的表现仍然比朴素的启发式算法好得多,这表明,BERT模型不是只能简单反应其看到的东西,它能够实际学会主谓一致的语法规则。
动词出现频率对BERT性能的影响
接下来,研究人员考察单词的出现频率对BERT正确使用主谓一致规则的影响。
研究人员选择了一组 60 个动词,然后创建了多版本的预训练数据,每个版本都设计为包含特定频率的 60 个动词,确保单复数形式出现相同的次数。然后从这些不同的数据集中训练BERT模型,并在主谓一致任务上对其进行了评估:
BERT 遵循主谓一致规则的能力,取决于训练集中动词出现的频率
这些结果表明,虽然 BERT 能够对主谓一致规则进行建模,但它需要看到一个动词大约 100 次才能可靠地将它与规则一起使用。
动词形式差异对BERT的影响
最后考察动词单复数形式的相对频率如何影响 BERT 的预测。
例如,如果动词的一种形式(如combat)比另一种动词形式(combats)出现在预训练数据中的频率高得多,那么 BERT 可能更有可能分配一个高概率到更频繁的形式,即使它在语法上不正确。
为了评估这个指标,再次使用相同的 60 个动词,但这次创建了预训练数据的改动版本,动词形式之间的频率比从 1:1 到 100:1 不等。下图显示了 BERT 在这些不同级别的频率不平衡下的性能:
可见,随着训练数据中动词形式之间的频率比变得更加不平衡,BERT 在合乎语法地使用这些动词的能力出现了下降。
这些结果表明,当两种形式在预训练期间被模型看到相同的次数时,BERT 在预测正确的动词形式方面取得了良好的准确性,但随着动词出现频率的差异增加,模型性能会逐步下滑。
这意味着,即使 BERT 已经学会了如何应用主谓一致性,它也不一定将其当做一个「规则」,而是更倾向于预测高频词,不管它们是否违反了主谓一致性。
结论
本研究使用 TSE 来评估 BERT 的性能,揭示了模型在语法任务上的语言能力。
此外还揭示了 BERT 处理判断任务优先级的方式:
模型知道主语和动词应该一致,面对高频词时尤为如此,但模型不理解这种一致是必须遵循的规则,而只是当成一种偏好。
研究人员希望,这项工作会对语言模型反映训练数据集的属性方面提供新的见解。
参考资料:
https://ai.googleblog.com/2021/12/evaluating-syntactic-abilities-of.html
https://arxiv.org/pdf/1901.05287.pdf
https://arxiv.org/abs/2109.07020
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
BERT
关注
100
BERT全称Bidirectional Encoder Representations from Transformers,是预训练语言表示的方法,可以在大型文本语料库(如维基百科)上训练通用的“语言理解”模型,然后将该模型用于下游NLP任务,比如机器翻译、问答。
1370亿参数、接近人类水平,谷歌对话AI模型LaMDA放出论文
专知会员服务
44+阅读 · 2022年1月24日
EMNLP 2021 | 预训练跨语言模型中的大词表构建及使用
专知会员服务
20+阅读 · 2022年1月5日
知识增强预训练语言模型:全面综述
专知会员服务
89+阅读 · 2021年10月19日
【ICML2021】反事实生成模型的语言
专知会员服务
16+阅读 · 2021年9月17日
【ICML2021】通过文本生成统一视觉和语言任务
专知会员服务
18+阅读 · 2021年9月13日
Knowledge In PLM: 语言模型可以作为一种知识库吗?
专知会员服务
29+阅读 · 2021年6月15日
1750亿参数!GPT-3来了!31位作者,OpenAI发布小样本学习器语言模型
专知会员服务
72+阅读 · 2020年5月30日
【斯坦福大学AI】BERT, ELMo, & GPT-2:上下文化的单词表示是怎样的?
专知会员服务
34+阅读 · 2020年3月28日
【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准
专知会员服务
13+阅读 · 2020年3月27日
谷歌提出“T5” 新NLP模型,突破迁移学习局限,多基准测试达SOTA!
专知会员服务
40+阅读 · 2020年2月26日
大型语言模型,真的能够理解人类吗?
CSDN
0+阅读 · 2022年1月24日
错误的语法会对BERT模型准确性产生影响吗?
AI前线
0+阅读 · 2022年1月22日
评估语言模型的句法能力
TensorFlow
1+阅读 · 2022年1月11日
谷歌机器智能大牛:AI模型要真正理解人类语言,关键是「序列学习」
新智元
1+阅读 · 2021年12月26日
Transformer性能被高估?DeepMind动态评估模型的时间泛化能力
PaperWeekly
0+阅读 · 2021年11月25日
ACL 2019 | 多语言BERT的语言表征探索
AI科技评论
20+阅读 · 2019年9月6日
中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍
深度学习与NLP
29+阅读 · 2019年3月30日
3分钟看懂史上最强NLP模型BERT
新智元
23+阅读 · 2019年2月27日
详解谷歌最强NLP模型BERT(理论+实战)
AI100
11+阅读 · 2019年1月18日
谷歌BERT模型深度解析
AINLP
42+阅读 · 2018年11月15日
构式语法的计算模型研究
国家自然科学基金
1+阅读 · 2014年12月31日
基于单语语料的无监督统计机器翻译模型研究
国家自然科学基金
1+阅读 · 2013年12月31日
基于变系数半参数模型的高维数据统计分析
国家自然科学基金
1+阅读 · 2013年12月31日
基于主题模型的枢轴语言统计机器翻译研究
国家自然科学基金
0+阅读 · 2013年12月31日
基于量化输出和信道通讯的系统辨识与状态估计
国家自然科学基金
0+阅读 · 2013年12月31日
用于交互式视频检索的教练式主动学习模型
国家自然科学基金
0+阅读 · 2012年12月31日
大型语义辞典的自动生成及在文本分析中的应用
国家自然科学基金
1+阅读 · 2012年12月31日
基于自动机/形式语言模型的离散事件动态系统状态估计理论
国家自然科学基金
0+阅读 · 2009年12月31日
随机微分方程的逼近
国家自然科学基金
0+阅读 · 2009年12月31日
汉语语义知识获取与语义计算模型研究
国家自然科学基金
0+阅读 · 2009年12月31日
Random Graphs by Product Random Measures
Arxiv
0+阅读 · 2022年4月20日
Impact of Tokenization on Language Models: An Analysis for Turkish
Arxiv
0+阅读 · 2022年4月19日
The Role of Pretrained Representations for the OOD Generalization of Reinforcement Learning Agents
Arxiv
0+阅读 · 2022年4月16日
Polling Latent Opinions: A Method for Computational Sociolinguistics Using Transformer Language Models
Arxiv
0+阅读 · 2022年4月15日
A Survey of Quantization Methods for Efficient Neural Network Inference
Arxiv
21+阅读 · 2021年6月21日
A Survey of Transformers
Arxiv
103+阅读 · 2021年6月8日
Efficient Transformers: A Survey
Arxiv
23+阅读 · 2020年9月16日
Graph Transformer Networks
Arxiv
15+阅读 · 2020年2月5日
Emu: Enhancing Multilingual Sentence Embeddings with Semantic Specialization
Arxiv
10+阅读 · 2019年9月15日
A Structured Self-attentive Sentence Embedding
Arxiv
23+阅读 · 2017年3月9日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
BERT
语言模型
黑盒子
TSE
黑盒
预训练
相关VIP内容
1370亿参数、接近人类水平,谷歌对话AI模型LaMDA放出论文
专知会员服务
44+阅读 · 2022年1月24日
EMNLP 2021 | 预训练跨语言模型中的大词表构建及使用
专知会员服务
20+阅读 · 2022年1月5日
知识增强预训练语言模型:全面综述
专知会员服务
89+阅读 · 2021年10月19日
【ICML2021】反事实生成模型的语言
专知会员服务
16+阅读 · 2021年9月17日
【ICML2021】通过文本生成统一视觉和语言任务
专知会员服务
18+阅读 · 2021年9月13日
Knowledge In PLM: 语言模型可以作为一种知识库吗?
专知会员服务
29+阅读 · 2021年6月15日
1750亿参数!GPT-3来了!31位作者,OpenAI发布小样本学习器语言模型
专知会员服务
72+阅读 · 2020年5月30日
【斯坦福大学AI】BERT, ELMo, & GPT-2:上下文化的单词表示是怎样的?
专知会员服务
34+阅读 · 2020年3月28日
【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准
专知会员服务
13+阅读 · 2020年3月27日
谷歌提出“T5” 新NLP模型,突破迁移学习局限,多基准测试达SOTA!
专知会员服务
40+阅读 · 2020年2月26日
热门VIP内容
开通专知VIP会员 享更多权益服务
军用数据链:武器装备神经,联合作战基石,31页pdf
【ETHZ博士论文】超越像素深度:通过深度学习增强超分辨率技术,198页pdf
2018∼2023年国家自然科学基金人工智能学科人才项目申请及资助综述
【NeurIPS2024】《AmoebaLLM:构建任意形状的大型语言模型以实现高效和即时部署》
相关资讯
大型语言模型,真的能够理解人类吗?
CSDN
0+阅读 · 2022年1月24日
错误的语法会对BERT模型准确性产生影响吗?
AI前线
0+阅读 · 2022年1月22日
评估语言模型的句法能力
TensorFlow
1+阅读 · 2022年1月11日
谷歌机器智能大牛:AI模型要真正理解人类语言,关键是「序列学习」
新智元
1+阅读 · 2021年12月26日
Transformer性能被高估?DeepMind动态评估模型的时间泛化能力
PaperWeekly
0+阅读 · 2021年11月25日
ACL 2019 | 多语言BERT的语言表征探索
AI科技评论
20+阅读 · 2019年9月6日
中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍
深度学习与NLP
29+阅读 · 2019年3月30日
3分钟看懂史上最强NLP模型BERT
新智元
23+阅读 · 2019年2月27日
详解谷歌最强NLP模型BERT(理论+实战)
AI100
11+阅读 · 2019年1月18日
谷歌BERT模型深度解析
AINLP
42+阅读 · 2018年11月15日
相关基金
构式语法的计算模型研究
国家自然科学基金
1+阅读 · 2014年12月31日
基于单语语料的无监督统计机器翻译模型研究
国家自然科学基金
1+阅读 · 2013年12月31日
基于变系数半参数模型的高维数据统计分析
国家自然科学基金
1+阅读 · 2013年12月31日
基于主题模型的枢轴语言统计机器翻译研究
国家自然科学基金
0+阅读 · 2013年12月31日
基于量化输出和信道通讯的系统辨识与状态估计
国家自然科学基金
0+阅读 · 2013年12月31日
用于交互式视频检索的教练式主动学习模型
国家自然科学基金
0+阅读 · 2012年12月31日
大型语义辞典的自动生成及在文本分析中的应用
国家自然科学基金
1+阅读 · 2012年12月31日
基于自动机/形式语言模型的离散事件动态系统状态估计理论
国家自然科学基金
0+阅读 · 2009年12月31日
随机微分方程的逼近
国家自然科学基金
0+阅读 · 2009年12月31日
汉语语义知识获取与语义计算模型研究
国家自然科学基金
0+阅读 · 2009年12月31日
相关论文
Random Graphs by Product Random Measures
Arxiv
0+阅读 · 2022年4月20日
Impact of Tokenization on Language Models: An Analysis for Turkish
Arxiv
0+阅读 · 2022年4月19日
The Role of Pretrained Representations for the OOD Generalization of Reinforcement Learning Agents
Arxiv
0+阅读 · 2022年4月16日
Polling Latent Opinions: A Method for Computational Sociolinguistics Using Transformer Language Models
Arxiv
0+阅读 · 2022年4月15日
A Survey of Quantization Methods for Efficient Neural Network Inference
Arxiv
21+阅读 · 2021年6月21日
A Survey of Transformers
Arxiv
103+阅读 · 2021年6月8日
Efficient Transformers: A Survey
Arxiv
23+阅读 · 2020年9月16日
Graph Transformer Networks
Arxiv
15+阅读 · 2020年2月5日
Emu: Enhancing Multilingual Sentence Embeddings with Semantic Specialization
Arxiv
10+阅读 · 2019年9月15日
A Structured Self-attentive Sentence Embedding
Arxiv
23+阅读 · 2017年3月9日
大家都在搜
汽车智能化
笛卡尔
大型语言模型
时间序列
全面综述
智能推荐
RE-NET
palantir
无人艇
出海产品从 0 到 1 该怎么做
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top