Polysemy and synonymy are two crucial interrelated facets of lexical ambiguity. While both phenomena are widely documented in lexical resources and have been studied extensively in NLP, leading to dedicated systems, they are often being considered independently in practical problems. While many tasks dealing with polysemy (e.g. Word Sense Disambiguation or Induction) highlight the role of word's senses, the study of synonymy is rooted in the study of concepts, i.e. meanings shared across the lexicon. In this paper, we introduce Concept Induction, the unsupervised task of learning a soft clustering among words that defines a set of concepts directly from data. This task generalizes Word Sense Induction. We propose a bi-level approach to Concept Induction that leverages both a local lemma-centric view and a global cross-lexicon view to induce concepts. We evaluate the obtained clustering on SemCor's annotated data and obtain good performance (BCubed F1 above 0.60). We find that the local and the global levels are mutually beneficial to induce concepts and also senses in our setting. Finally, we create static embeddings representing our induced concepts and use them on the Word-in-Context task, obtaining competitive performance with the State-of-the-Art.


翻译:多义性和同义性是词汇歧义的两个关键且相互关联的方面。尽管这两种现象在词汇资源中广泛记录,并在自然语言处理领域得到深入研究,催生了专门的系统,但在实际问题中它们往往被独立考虑。许多处理多义性的任务(如词义消歧或词义诱导)强调词义的作用,而同义性的研究则植根于概念的研究,即词汇间共享的意义。本文引入概念诱导这一无监督任务,旨在直接从数据中学习定义一组概念的词汇软聚类。该任务推广了词义诱导。我们提出了一种双层方法进行概念诱导,利用局部词元中心视角和全局跨词汇视角来诱导概念。我们在SemCor的标注数据上评估所得聚类,获得了良好性能(BCubed F1分数超过0.60)。我们发现,在我们的设定中,局部和全局层面相互促进,有助于诱导概念及词义。最后,我们创建了代表所诱导概念的静态嵌入,并将其用于上下文词汇任务,取得了与最先进技术相竞争的性能。

0
下载
关闭预览

相关内容

【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员