We present a word-sense induction method based on pre-trained masked language models (MLMs), which can cheaply scale to large vocabularies and large corpora. The result is a corpus which is sense-tagged according to a corpus-derived sense inventory and where each sense is associated with indicative words. Evaluation on English Wikipedia that was sense-tagged using our method shows that both the induced senses, and the per-instance sense assignment, are of high quality even compared to WSD methods, such as Babelfy. Furthermore, by training a static word embeddings algorithm on the sense-tagged corpus, we obtain high-quality static senseful embeddings. These outperform existing senseful embeddings techniques on the WiC dataset and on a new outlier detection dataset we developed. The data driven nature of the algorithm allows to induce corpora-specific senses, which may not appear in standard sense inventories, as we demonstrate using a case study on the scientific domain.


翻译:我们提出了一个基于预先训练的隐蔽语言模型(MLMS)的感官感应方法,该方法可以廉价地适用于大型词汇和大型公司,其结果是,一个根据来自物理的感官清单和每种感官都与指示性词相联系的感官标记体。用我们的方法对英文维基百科进行了感应标记的评价表明,即使与WSD方法(如Babilfy)相比,诱导感官和常识感官任务都具有很高的质量。此外,通过在感官标记体上培训静态的单词嵌入算法,我们获得了高质量的静态感官嵌入式嵌入器。这些在WIC数据集和我们开发的新的外部探测数据集上已经存在的感知性嵌入技术已经超出我们所开发的。数据驱动特性允许产生特定感官,而这种感官可能没有出现在标准意义上的目录中,我们用科学领域的案例研究来证明。

0
下载
关闭预览

相关内容

专知会员服务
44+阅读 · 2020年12月18日
【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
39+阅读 · 2020年11月20日
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
73+阅读 · 2020年8月2日
【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理
深度学习自然语言处理
18+阅读 · 2020年5月22日
word2Vec总结
AINLP
3+阅读 · 2019年11月2日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
自然语言处理 (三) 之 word embedding
DeepLearning中文论坛
19+阅读 · 2015年8月3日
Arxiv
0+阅读 · 2021年12月5日
Arxiv
3+阅读 · 2018年8月27日
VIP会员
相关VIP内容
专知会员服务
44+阅读 · 2020年12月18日
【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
39+阅读 · 2020年11月20日
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
73+阅读 · 2020年8月2日
Top
微信扫码咨询专知VIP会员