It is a common belief in the NLP community that continuous bag-of-words (CBOW) word embeddings tend to underperform skip-gram (SG) embeddings. We find that this belief is founded less on theoretical differences in their training objectives but more on faulty CBOW implementations in standard software libraries such as the official implementation word2vec.c and Gensim. We show that our correct implementation of CBOW yields word embeddings that are fully competitive with SG on various intrinsic and extrinsic tasks while being more than three times as fast to train. We release our implementation, k\=oan, at https://github.com/bloomberg/koan.


翻译:我们发现,这种信念的根基不是其培训目标的理论差异,而是标准软件图书馆,如正式执行单词2vec.c和Gensim的错误执行。我们显示,我们正确执行标准软件图书馆的CBOW生成了与SG在各种内在和外在任务上完全具有竞争力的词,同时在培训速度超过3倍的同时,与SG在各种内在和外在任务上具有充分竞争力。我们发布了我们的执行程序,即Kãoan,网址是https://github.com/bloomberg/koan。

0
下载
关闭预览

相关内容

连续词袋模型(CBOW),利用上下文或周围的单词来预测中心词。其输入为某一个特征词的上下文相关对应的词向量(单词的one-hot编码);输出为这特定的一个词的词向量(单词的one-hot编码)。
最新《Transformers模型》教程,64页ppt
专知会员服务
309+阅读 · 2020年11月26日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
【最受欢迎的概率书】《概率论:理论与实例》,490页pdf
专知会员服务
163+阅读 · 2020年11月13日
最新《时序分类:深度序列模型》教程,172页ppt
专知会员服务
42+阅读 · 2020年11月11日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
基于 Doc2vec 训练句子向量
AI研习社
6+阅读 · 2018年5月16日
已删除
将门创投
4+阅读 · 2017年11月1日
Arxiv
0+阅读 · 2021年3月2日
Arxiv
7+阅读 · 2020年3月1日
Arxiv
7+阅读 · 2019年10月6日
Arxiv
5+阅读 · 2019年6月5日
Relational recurrent neural networks
Arxiv
8+阅读 · 2018年6月28日
Arxiv
3+阅读 · 2018年3月14日
VIP会员
相关VIP内容
最新《Transformers模型》教程,64页ppt
专知会员服务
309+阅读 · 2020年11月26日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
【最受欢迎的概率书】《概率论:理论与实例》,490页pdf
专知会员服务
163+阅读 · 2020年11月13日
最新《时序分类:深度序列模型》教程,172页ppt
专知会员服务
42+阅读 · 2020年11月11日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
相关资讯
基于 Doc2vec 训练句子向量
AI研习社
6+阅读 · 2018年5月16日
已删除
将门创投
4+阅读 · 2017年11月1日
Top
微信扫码咨询专知VIP会员