题目:GNEG:Graph-Based Negative Sampling for word2vec

论文摘要; 负抽样是分布式词表示学习的一个重要组成部分。我们假设,考虑全局的语料库级信息,为每个目标词生成不同的噪声分布,比原始的基于频率的分布更能满足每个训练词的反例要求。为此,我们从语料库中预先计算单词的共现统计量,并将其应用于随机游走等it网络算法中。我们通过一系列实验验证了这一假设,实验结果表明,我们的方法将单词类比任务提高了约5%,并将单词相似性任务的性能提高了约1%。

成为VIP会员查看完整内容
40

相关内容

图表示学习是2018年火爆全球的一个深度学习方向,从以 Line, meta-path 等为首的节点表示学习,到以 GCN,GraphSAGE,为首的图卷积方法,在到近期的以 GraphVAE 为首的生成图模型,图表示学习方向的文章如过江之鲫。
论文浅尝 | 一种嵌入效率极高的 node embedding 方式
开放知识图谱
13+阅读 · 2019年5月12日
基于 Doc2vec 训练句子向量
AI研习社
6+阅读 · 2018年5月16日
干货|自然语言处理中的词向量 — word2vec!
全球人工智能
7+阅读 · 2018年1月25日
Word2Vec 与 GloVe 技术浅析与对比
LibRec智能推荐
25+阅读 · 2017年5月15日
Arxiv
3+阅读 · 2018年2月12日
VIP会员
相关资讯
论文浅尝 | 一种嵌入效率极高的 node embedding 方式
开放知识图谱
13+阅读 · 2019年5月12日
基于 Doc2vec 训练句子向量
AI研习社
6+阅读 · 2018年5月16日
干货|自然语言处理中的词向量 — word2vec!
全球人工智能
7+阅读 · 2018年1月25日
Word2Vec 与 GloVe 技术浅析与对比
LibRec智能推荐
25+阅读 · 2017年5月15日
微信扫码咨询专知VIP会员