Word Sense Disambiguation is an open problem in Natural Language Processing which is particularly challenging and useful in the unsupervised setting where all the words in any given text need to be disambiguated without using any labeled data. Typically WSD systems use the sentence or a small window of words around the target word as the context for disambiguation because their computational complexity scales exponentially with the size of the context. In this paper, we leverage the formalism of topic model to design a WSD system that scales linearly with the number of words in the context. As a result, our system is able to utilize the whole document as the context for a word to be disambiguated. The proposed method is a variant of Latent Dirichlet Allocation in which the topic proportions for a document are replaced by synset proportions. We further utilize the information in the WordNet by assigning a non-uniform prior to synset distribution over words and a logistic-normal prior for document distribution over synsets. We evaluate the proposed method on Senseval-2, Senseval-3, SemEval-2007, SemEval-2013 and SemEval-2015 English All-Word WSD datasets and show that it outperforms the state-of-the-art unsupervised knowledge-based WSD system by a significant margin.


翻译:在自然语言处理中,Wordsense Dismodication是一个公开的自然语言处理中的问题,这个问题特别具有挑战性和有用性,在不受监督的环境下,任何特定文本中的所有单词都需要在不使用任何标签数据的情况下进行模糊化。通常, WSD 系统使用目标字周围的句子或一小扇字窗口作为模糊化的上下文,因为它们的计算复杂度与上下文大小成倍成倍。在本文中,我们利用专题模式的形式设计一个WSD系统,该系统与上下文中的单词数量成线缩放。因此,我们的系统能够利用整个文档作为上下文来淡化一个单词。拟议的方法是“Lenttit Dirichlet 分配”的变式,其中文档的主题比例被音频比例取代。我们进一步利用WordNet中的信息,方法是在Synset分发单词之前指定一个不统一的系统,在Synsetset上分发文档之前设定一个逻辑的正常性。我们评估了Sensval-2、Senevval-3、Semval-2007、SemEval-2013和SemEval-Emball-SD-SD-SD-Sl-SD、SD-SD-SD-SD、SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-S

5
下载
关闭预览

相关内容

《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
自然语言处理顶会 ACL 2018 参会见闻
PaperWeekly
3+阅读 · 2018年7月26日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Arxiv
21+阅读 · 2019年8月21日
Arxiv
3+阅读 · 2018年8月27日
Arxiv
5+阅读 · 2018年2月26日
Arxiv
3+阅读 · 2017年12月18日
VIP会员
相关VIP内容
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
相关论文
Top
微信扫码咨询专知VIP会员