This work studies the semantic representations learned by BERT for compounds, that is, expressions such as sunlight or bodyguard. We build on recent studies that explore semantic information in Transformers at the word level and test whether BERT aligns with human semantic intuitions when dealing with expressions (e.g., sunlight) whose overall meaning depends -- to a various extent -- on the semantics of the constituent words (sun, light). We leverage a dataset that includes human judgments on two psycholinguistic measures of compound semantic analysis: lexeme meaning dominance (LMD; quantifying the weight of each constituent toward the compound meaning) and semantic transparency (ST; evaluating the extent to which the compound meaning is recoverable from the constituents' semantics). We show that BERT-based measures moderately align with human intuitions, especially when using contextualized representations, and that LMD is overall more predictable than ST. Contrary to the results reported for 'standard' words, higher, more contextualized layers are the best at representing compound meaning. These findings shed new light on the abilities of BERT in dealing with fine-grained semantic phenomena. Moreover, they can provide insights into how speakers represent compounds.
翻译:这项工作研究了生物、环境和环境研究小组为化合物所学的语义表达方式,即阳光或保镖等表达方式。我们以最近研究在字级变异器中探索语义信息的研究为基础,并测试生物、环境和环境研究小组在处理整体含义取决于(在某种程度上)组成词(太阳、光)语义的语义表达方式时是否与人类语义直觉相一致。我们利用了一个数据集,其中包括人类对复合语义分析两种精神语言衡量方法的判断:Lexeme 意思(LMD;量化每个成分对复合含义的重量)和语义透明度(ST;评估复合含义从组成方语义中可恢复的程度)。我们表明,基于生物、环境和环境研究小组的测量方法与人类直觉(特别是在使用背景表达方式表达方式时)略有一致,而且LMD总体上比ST更可预测。 与“标准”言词所报告的结果相反,更高、更背景化的层层是代表复合含义的最好方法。这些结论可以给生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、生物、