When language models process syntactically complex sentences, do they use abstract syntactic information present in these sentences in a manner that is consistent with the grammar of English, or do they rely solely on a set of heuristics? We propose a method to tackle this question, AlterRep. For any linguistic feature in the sentence, AlterRep allows us to generate counterfactual representations by altering how this feature is encoded, while leaving all other aspects of the original representation intact. Then, by measuring the change in a models' word prediction with these counterfactual representations in different sentences, we can draw causal conclusions about the contexts in which the model uses the linguistic feature (if any). Applying this method to study how BERT uses relative clause (RC) span information, we found that BERT uses information about RC spans during agreement prediction using the linguistically correct strategy. We also found that counterfactual representations generated for a specific RC subtype influenced the number prediction in sentences with other RC subtypes, suggesting that information about RC boundaries was encoded abstractly in BERT's representation.


翻译:当语言模型处理综合复杂的句子时,它们是否以与英语语法一致的方式使用这些句子中的抽象综合信息,或者它们是否完全依赖一套超自然学?我们提出了解决这一问题的方法,AlterRep。对于句子中的任何语言特征,AlterRep允许我们通过改变该特征如何编码来产生反事实表现,同时保留最初表述的所有其它方面。然后,通过用不同句子中的这些反事实表述来衡量模型词性预测的变化,我们可以就模型使用语言特征(如果有的话)的背景得出因果关系结论。运用这一方法来研究生物和地球伦理学研究小组如何使用相对条款(RC)覆盖信息,我们发现在使用语言正确战略进行协议预测期间,生物和伦理学小组使用了有关RC范围的信息。我们还发现,为特定RC子类型产生的反事实表现影响了与其他RC子类型在句中的数值预测,表明有关RC边界的信息在生物和伦理学专家专家小组的表述中是抽象编码的。

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
【华盛顿大学】预训练语言模型中的潜在名称构件
专知会员服务
3+阅读 · 2020年4月6日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
163+阅读 · 2020年3月18日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
「Github」多模态机器学习文章阅读列表
专知
123+阅读 · 2019年8月15日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
CCF B类期刊IPM专刊截稿信息1条
Call4Papers
3+阅读 · 2018年10月11日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
已删除
将门创投
4+阅读 · 2017年12月12日
人工智能 | 国际会议截稿信息5条
Call4Papers
6+阅读 · 2017年11月22日
【计算机类】期刊专刊/国际会议截稿信息6条
Call4Papers
3+阅读 · 2017年10月13日
Arxiv
0+阅读 · 2021年7月10日
Arxiv
0+阅读 · 2021年7月8日
Arxiv
27+阅读 · 2018年4月12日
VIP会员
相关资讯
「Github」多模态机器学习文章阅读列表
专知
123+阅读 · 2019年8月15日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
CCF B类期刊IPM专刊截稿信息1条
Call4Papers
3+阅读 · 2018年10月11日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
已删除
将门创投
4+阅读 · 2017年12月12日
人工智能 | 国际会议截稿信息5条
Call4Papers
6+阅读 · 2017年11月22日
【计算机类】期刊专刊/国际会议截稿信息6条
Call4Papers
3+阅读 · 2017年10月13日
Top
微信扫码咨询专知VIP会员