基于 word2vec 中的 Skip-Gram 模型,我们提出了 SAT(sememe attention over target model)模型。与 Skip-Gram 模型只考虑上下文信息相比,SAT 模型同时考虑单词的义原信息,使用义原信息辅助模型更好地「理解」单词。具体做法是,根据上下文单词来对中心词做词义消歧,使用 attention 机制计算上下文对该单词各个词义(sense)的权重,然后使用 sense embedding 的加权平均值表示单词向量。在词语相似度计算和类比推理两个任务上的实验结果表明,将义原信息融入词汇表示学习能够有效提升词向量性能。
SAT(Sememe Attention over Target Model)模型示意图
2. 基于词汇表示的新词义原推荐
论文:Ruobing Xie, Xingchi Yuan, Zhiyuan Liu, Maosong Sun. Lexical Sememe Prediction via Word Embeddings and Matrix Factorization. In IJCAI, 2017.
论文:Xiangkai Zeng, Cheng Yang, Cunchao Tu, Zhiyuan Liu, Maosong Sun. Chinese LIWC Lexicon Expansion via Hierarchical Classification of Word Embeddings with Sememe Attention. In AAAI, 2018.
最近,我们又尝试了利用词语表示学习与 HowNet 知识库进行词典扩展。词典扩展任务旨在根据词典中的已有词语,自动扩展出更多的相关词语。该任务可以看做对词语的分类问题。我们选用在社会学中享有盛名的 LIWC 词典(Linguistic Inquiry and Word Count)中文版来开展研究。LIWC 中文版中每个单词都被标注层次化心理学类别。我们利用大规模文本数据学习每个词语的分布式向量表示,然后用 LIWC 词典单词作为训练数据训练分类器,并用 HowNet 提供的义原标注信息构建 sememe attention。实验表明,义原信息的引入能够显著提升单词的层次分类效果。
基于Sememe Attention的词典扩展模型
ps. 值得一提的是,这三份工作都是本科生(牛艺霖、袁星驰、曾祥楷)为主完成的,模型方案都很简单,但都是第一次投稿就被 ACL、IJCAI和AAAI 录用,也可以看出国际学术界对于这类技术路线的认可。
