Word2Vec 与 GloVe 技术浅析与对比

2017 年 5 月 15 日 LibRec智能推荐 孙亚童

前言



学习word representation的模型主要分为两类:以LSA (latent semantic analysis)为代表的global matrix factorization methods,也称为 count-based methods; 以及以word2vec为代表的 prediction-based methods。哪类模型的性能更好,自然成为了人们关注的焦点。最近,有学者的实验证明prediction-based methods在多种任务上都具有更优秀的表现。后续提出的GloVe[1] 模型,结合了count-based methods 和 prediction-based methods 的优势,在性能上超越了Skip-Gram[2]、CBOW[2] 等经典的prediction-based methods。


本文主要分为4部分:

(1) 简要介绍count-based methods和prediction-based methods的特点;

(2) 从基础的模型目标函数角度对 GloVe 和 word2vec 进行对比,得出的结论是二者本质上是类似的,但word2vec模型中包含些许缺陷;

(3) 分析证明GloVe的模型的计算复杂度小于word2vec;

(4) 列举在三种任务上的实验结果,对前述分析进行了验证。


(1) 两类主要模型



Count-based methods 以矩阵分解方法为基础,通过对包含整个语料统计信息的矩阵进行分解,得到每个单词对应的实数向量。例如LSA (latent semantic analysis)是对一个“term-document”矩阵进行分解;HAL(Hyperspace Analogue to Language) 对一个“term-term”矩阵进行分解。这类方法的缺点在于,它较难学得词之间的类比关系。


Prediction-based methods 使用一个在语料上滑动的窗口进行学习,主要包含两种方式:

(1) Skip-Gram: 使用当前词预测它的context words;

(2) CBOW: 使用context words 预测当前词。

这类方法的缺点在于没有直接利用语料的统计信息。


(2) GloVe model vs. Skip-Gram model



Cost function of GloVe:


与 word2vec cost function 的关系

Skip-Gram的目标是随着窗口在语料上滑动,最大化word j 出现在 word i context中的概率(Qij),故其目标函数可表示为:

十分类似,即二者并无本质差别。


(3) Complexity of the GloVe model



GloVe 的计算复杂度主要依赖于X矩阵中的非零项,所以不会超过O(|V|^2),但 |V|^2 通常是一个远大于语料词数的值,所以需要为X矩阵的非零项寻找一个更小的上界。


我们假设 X_ij 可以表示为以下形式,其中 r_ij 表示单词对的frequency rank。


(4) Experiments



实验在word analogies、word similarity、named entity recognition 三个任务上对GloVe 、Skip-Gram、CBOW 以及其他baseline进行了对比,GloVe在大部分情况下都超过了其他模型的性能。


Word analogies result


Spearman rank correlation on word similarity tasks:


F1 score on NER task:


总结



虽然前述内容论证了GloVe模型相对于word2vec的优势,但有些学者的实验结果[3]表明GloVe并非总是能更胜一筹。所以对于具体的数据集适合使用哪种模型,还需要我们亲自做实验来验证。




猜你喜欢

LibRec 每周算法:ConvMF (RecSys'16)

LibRec 每周算法:CKE (KDD'16)


参考文献

[1] J. Pennington et al. Glove: Global vectors for word representation. EMNLP, pages 1532–1543, 2014. 

[2] Tomas Mikolov et al. Efficient Estimation of Word Representations in Vector Space. ICLR Workshop, 2013.

[3] Omer Levy et al. Improving Distributional Similarity with Lessons Learned from Word Embeddings. Transactions of the Association for Computational Linguistics, 3 (0), 211–225, 2015.



登录查看更多
25

相关内容

【KDD2020-清华大学】图对比编码的图神经网络预训练
专知会员服务
46+阅读 · 2020年6月18日
基于深度学习的多标签生成研究进展
专知会员服务
143+阅读 · 2020年4月25日
【北航】面向自然语言处理的预训练技术研究综述
专知会员服务
113+阅读 · 2020年4月23日
专知会员服务
156+阅读 · 2020年4月21日
Transformer文本分类代码
专知会员服务
117+阅读 · 2020年2月3日
新时期我国信息技术产业的发展
专知会员服务
71+阅读 · 2020年1月18日
斯坦福&谷歌Jeff Dean最新Nature论文:医疗深度学习技术指南
面试题:Word2Vec中为什么使用负采样?
七月在线实验室
46+阅读 · 2019年5月16日
深度上下文词向量
微信AI
27+阅读 · 2018年9月13日
基于 Doc2vec 训练句子向量
AI研习社
6+阅读 · 2018年5月16日
不懂 word2vec,还敢说自己是做 NLP 的?
AI研习社
8+阅读 · 2018年5月4日
学习 | word2vec的前世今生
菜鸟的机器学习
14+阅读 · 2018年3月21日
干货|自然语言处理中的词向量 — word2vec!
全球人工智能
7+阅读 · 2018年1月25日
情感分析的新方法,使用word2vec对微博文本进行情感分析和分类
数据挖掘入门与实战
22+阅读 · 2018年1月6日
基础|Word2vec的原理介绍
全球人工智能
10+阅读 · 2018年1月4日
字词的向量表示
黑龙江大学自然语言处理实验室
4+阅读 · 2016年6月13日
Arxiv
7+阅读 · 2019年10月6日
Arxiv
21+阅读 · 2019年8月21日
Arxiv
26+阅读 · 2018年2月27日
Arxiv
5+阅读 · 2018年2月26日
VIP会员
相关VIP内容
【KDD2020-清华大学】图对比编码的图神经网络预训练
专知会员服务
46+阅读 · 2020年6月18日
基于深度学习的多标签生成研究进展
专知会员服务
143+阅读 · 2020年4月25日
【北航】面向自然语言处理的预训练技术研究综述
专知会员服务
113+阅读 · 2020年4月23日
专知会员服务
156+阅读 · 2020年4月21日
Transformer文本分类代码
专知会员服务
117+阅读 · 2020年2月3日
新时期我国信息技术产业的发展
专知会员服务
71+阅读 · 2020年1月18日
斯坦福&谷歌Jeff Dean最新Nature论文:医疗深度学习技术指南
相关资讯
面试题:Word2Vec中为什么使用负采样?
七月在线实验室
46+阅读 · 2019年5月16日
深度上下文词向量
微信AI
27+阅读 · 2018年9月13日
基于 Doc2vec 训练句子向量
AI研习社
6+阅读 · 2018年5月16日
不懂 word2vec,还敢说自己是做 NLP 的?
AI研习社
8+阅读 · 2018年5月4日
学习 | word2vec的前世今生
菜鸟的机器学习
14+阅读 · 2018年3月21日
干货|自然语言处理中的词向量 — word2vec!
全球人工智能
7+阅读 · 2018年1月25日
情感分析的新方法,使用word2vec对微博文本进行情感分析和分类
数据挖掘入门与实战
22+阅读 · 2018年1月6日
基础|Word2vec的原理介绍
全球人工智能
10+阅读 · 2018年1月4日
字词的向量表示
黑龙江大学自然语言处理实验室
4+阅读 · 2016年6月13日
Top
微信扫码咨询专知VIP会员