This work studies the semantic representations learned by BERT for compounds, that is, expressions such as sunlight or bodyguard. We build on recent studies that explore semantic information in Transformers at the word level and test whether BERT aligns with human semantic intuitions when dealing with expressions (e.g., sunlight) whose overall meaning depends -- to a various extent -- on the semantics of the constituent words (sun, light). We leverage a dataset that includes human judgments on two psycholinguistic measures of compound semantic analysis: lexeme meaning dominance (LMD; quantifying the weight of each constituent toward the compound meaning) and semantic transparency (ST; evaluating the extent to which the compound meaning is recoverable from the constituents' semantics). We show that BERT-based measures moderately align with human intuitions, especially when using contextualized representations, and that LMD is overall more predictable than ST. Contrary to the results reported for 'standard' words, higher, more contextualized layers are the best at representing compound meaning. These findings shed new light on the abilities of BERT in dealing with fine-grained semantic phenomena. Moreover, they can provide insights into how speakers represent compounds.


翻译:这项工作研究了生物、环境和环境研究小组为化合物所学的语义表达方式,即阳光或保镖等表达方式。我们以最近研究在字级变异器中探索语义信息的研究为基础,并测试生物、环境和环境研究小组在处理整体含义取决于(在某种程度上)组成词(太阳、光)语义的语义表达方式时是否与人类语义直觉相一致。我们利用了一个数据集,其中包括人类对复合语义分析两种精神语言衡量方法的判断:Lexeme 意思(LMD;量化每个成分对复合含义的重量)和语义透明度(ST;评估复合含义从组成方语义中可恢复的程度)。我们表明,基于生物、环境和环境研究小组的测量方法与人类直觉(特别是在使用背景表达方式表达方式时)略有一致,而且LMD总体上比ST更可预测。 与“标准”言词所报告的结果相反,更高、更背景化的层层是代表复合含义的最好方法。这些结论可以给生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、

0
下载
关闭预览

相关内容

专知会员服务
39+阅读 · 2020年9月6日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
153+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
176+阅读 · 2019年10月11日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【推荐】用TensorFlow实现LSTM社交对话股市情感分析
机器学习研究会
11+阅读 · 2018年1月14日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
39+阅读 · 2021年11月11日
Arxiv
110+阅读 · 2020年2月5日
VIP会员
相关资讯
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【推荐】用TensorFlow实现LSTM社交对话股市情感分析
机器学习研究会
11+阅读 · 2018年1月14日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员