When language models process syntactically complex sentences, do they use their representations of syntax in a manner that is consistent with the grammar of the language? We propose AlterRep, an intervention-based method to address this question. For any linguistic feature of a given sentence, AlterRep generates counterfactual representations by altering how the feature is encoded, while leaving intact all other aspects of the original representation. By measuring the change in a model's word prediction behavior when these counterfactual representations are substituted for the original ones, we can draw conclusions about the causal effect of the linguistic feature in question on the model's behavior. We apply this method to study how BERT models of different sizes process relative clauses (RCs). We find that BERT variants use RC boundary information during word prediction in a manner that is consistent with the rules of English grammar; this RC boundary information generalizes to a considerable extent across different RC types, suggesting that BERT represents RCs as an abstract linguistic category.


翻译:当语言模型处理综合复杂的句子时,它们是否以与语言语法一致的方式使用其语法表达方式? 我们提议采用AlterRep, 这是一种以干预为基础的方法来解决这一问题。 对于某一句子的任何语言特征, AlterRep 产生反事实表述, 改变该词是如何编码的, 同时保留原始表达式的所有其他方面。 当这些反事实表达式被替换为原始表达式时, 我们可以测量模型单词预测行为的变化, 从而得出有关语言特征在模型行为中的因果关系的结论。 我们采用这种方法来研究不同大小的BERT模型如何处理相对条款(RCs)。 我们发现, BERT 变量在单词预测中使用了符合英语语法规则的RC边界信息; 这种RC边界信息在相当程度上概括了不同驻地协调员类型的语言, 表明BERT代表RCs为抽象语言类别。

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
专知会员服务
32+阅读 · 2021年10月9日
专知会员服务
30+阅读 · 2021年6月12日
【XAUTOML】可解释自动机器学习,27页ppt
专知会员服务
60+阅读 · 2021年4月23日
知识驱动的视觉知识学习,以VQA视觉问答为例,31页ppt
专知会员服务
35+阅读 · 2020年9月25日
因果关联学习,Causal Relational Learning
专知会员服务
178+阅读 · 2020年4月21日
因果图,Causal Graphs,52页ppt
专知会员服务
238+阅读 · 2020年4月19日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
15+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Visualizing and Measuring the Geometry of BERT
Arxiv
7+阅读 · 2019年10月28日
VIP会员
相关VIP内容
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
15+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员