In recent years, natural language processing (NLP) has become one of the most important areas with various applications in human's life. As the most fundamental task, the field of word embedding still requires more attention and research. Currently, existing works about word embedding are focusing on proposing novel embedding algorithms and dimension reduction techniques on well-trained word embeddings. In this paper, we propose to use a novel joint signal separation method - JIVE to jointly decompose various trained word embeddings into joint and individual components. Through this decomposition framework, we can easily investigate the similarity and difference among different word embeddings. We conducted extensive empirical study on word2vec, FastText and GLoVE trained on different corpus and with different dimensions. We compared the performance of different decomposed components based on sentiment analysis on Twitter and Stanford sentiment treebank. We found that by mapping different word embeddings into the joint component, sentiment performance can be greatly improved for the original word embeddings with lower performance. Moreover, we found that by concatenating different components together, the same model can achieve better performance. These findings provide great insights into the word embeddings and our work offer a new of generating word embeddings by fusing.


翻译:近年来,自然语言处理(NLP)已成为人类生活中应用各种应用的最重要领域之一。作为最基本的任务,语言嵌入领域仍然需要更多关注和研究。目前,关于语言嵌入的现有工作重点是在训练有素的字嵌入中提出新型嵌入算法和减少维度的技术。在本文中,我们提议使用一种新型的联合信号分离方法 — — 联合将经过训练的文字嵌入到联合和单个组成部分中,通过这个分解框架,我们可以很容易地调查不同词嵌入中的相似性和差异。我们进行了关于字嵌入领域的广泛经验研究,在不同领域和不同层面进行了培训。我们比较了基于Twitter和斯坦福情感树库情感分析的不同分解的构件的性能。我们发现,通过绘制将不同词嵌入联合组成部分的不同词的图谱,情绪表现可以大大改善。此外,我们发现,通过将不同的构成不同的构件放在一起,同一模型可以实现更好的性能。这些发现,通过将新词嵌入新的单词,可以提供伟大的洞洞察力。

0
下载
关闭预览

相关内容

分散式表示即将语言表示为稠密、低维、连续的向量。 研究者最早发现学习得到词嵌入之间存在类比关系。比如apple−apples ≈ car−cars, man−woman ≈ king – queen 等。这些方法都可以直接在大规模无标注语料上进行训练。词嵌入的质量也非常依赖于上下文窗口大小的选择。通常大的上下文窗口学到的词嵌入更反映主题信息,而小的上下文窗口学到的词嵌入更反映词的功能和上下文语义信息。
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
NeurIPS2019机器学习顶会接受论文列表!
GAN生成式对抗网络
17+阅读 · 2019年9月6日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
自然语言处理顶会EMNLP2018接受论文列表!
专知
87+阅读 · 2018年8月26日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年1月19日
Arxiv
4+阅读 · 2020年5月25日
Domain Representation for Knowledge Graph Embedding
Arxiv
14+阅读 · 2019年9月11日
Angular-Based Word Meta-Embedding Learning
Arxiv
3+阅读 · 2018年8月13日
Arxiv
5+阅读 · 2018年6月4日
Arxiv
10+阅读 · 2018年3月22日
Arxiv
5+阅读 · 2017年10月27日
VIP会员
相关VIP内容
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
相关资讯
NeurIPS2019机器学习顶会接受论文列表!
GAN生成式对抗网络
17+阅读 · 2019年9月6日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
自然语言处理顶会EMNLP2018接受论文列表!
专知
87+阅读 · 2018年8月26日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Top
微信扫码咨询专知VIP会员