Over the last few years, neural network derived word embeddings became popular in the natural language processing literature. Studies conducted have mostly focused on the quality and application of word embeddings trained on public available corpuses such as Wikipedia or other news and social media sources. However, these studies are limited to generic text and thus lack technical and scientific nuances such as domain specific vocabulary, abbreviations, or scientific formulas which are commonly used in academic context. This research focuses on the performance of word embeddings applied to a large scale academic corpus. More specifically, we compare quality and efficiency of trained word embeddings to TFIDF representations in modeling content of scientific articles. We use a word2vec skip-gram model trained on titles and abstracts of about 70 million scientific articles. Furthermore, we have developed a benchmark to evaluate content models in a scientific context. The benchmark is based on a categorization task that matches articles to journals for about 1.3 million articles published in 2017. Our results show that content models based on word embeddings are better for titles (short text) while TFIDF works better for abstracts (longer text). However, the slight improvement of TFIDF for larger text comes at the expense of 3.7 times more memory requirement as well as up to 184 times higher computation times which may make it inefficient for online applications. In addition, we have created a 2-dimensional visualization of the journals modeled via embeddings to qualitatively inspect embedding model. This graph shows useful insights and can be used to find competitive journals or gaps to propose new journals.


翻译:在过去几年里,神经网络派生的字嵌入在自然语言处理文献中变得很受欢迎。进行的研究主要侧重于在公共可获取的文献(如维基百科或其他新闻和社交媒体来源)上培训的字嵌入的质量和应用。然而,这些研究仅限于通用文本,因此缺乏技术和科学的细微差别,例如具体领域的词汇、缩略语或通常用于学术背景的科学公式。这一研究侧重于适用于大型学术资料库的字嵌入功能。更具体地说,我们将经过培训的字嵌入的质量和效率与TFIDF期刊在科学文章内容建模中的形象进行比较。我们使用经培训的文字嵌入模式的字嵌入质量和实用性模型,就约7 000万份科学文章的书名和摘要进行了培训。此外,我们制定了一个基准,用于评估科学背景内容模型的技术和科学细化模型,将文章与2017年出版的约130万篇文章相匹配。我们的研究结果表明,基于字嵌入的字嵌入模型更有用,而TRFF在摘要(长文文本)中则更好。然而,略改进了TFIDFS-Bramdegramgrammeal real recal recal real real real real real bemadududududududududududududududududududududududududududududududustrs 。

0
下载
关闭预览

相关内容

分散式表示即将语言表示为稠密、低维、连续的向量。 研究者最早发现学习得到词嵌入之间存在类比关系。比如apple−apples ≈ car−cars, man−woman ≈ king – queen 等。这些方法都可以直接在大规模无标注语料上进行训练。词嵌入的质量也非常依赖于上下文窗口大小的选择。通常大的上下文窗口学到的词嵌入更反映主题信息,而小的上下文窗口学到的词嵌入更反映词的功能和上下文语义信息。
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
专知会员服务
123+阅读 · 2020年9月8日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
在Python中使用SpaCy进行文本分类
专知
24+阅读 · 2018年5月8日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
利用word2vec对关键词进行聚类
数据挖掘入门与实战
4+阅读 · 2017年8月28日
【宁波站】网络爬虫与文本挖掘
数萃大数据
5+阅读 · 2017年7月19日
自然语言处理 (三) 之 word embedding
DeepLearning中文论坛
19+阅读 · 2015年8月3日
Arxiv
3+阅读 · 2019年8月19日
Arxiv
7+阅读 · 2018年1月30日
Arxiv
5+阅读 · 2018年1月30日
Arxiv
5+阅读 · 2018年1月23日
VIP会员
相关资讯
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
在Python中使用SpaCy进行文本分类
专知
24+阅读 · 2018年5月8日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
利用word2vec对关键词进行聚类
数据挖掘入门与实战
4+阅读 · 2017年8月28日
【宁波站】网络爬虫与文本挖掘
数萃大数据
5+阅读 · 2017年7月19日
自然语言处理 (三) 之 word embedding
DeepLearning中文论坛
19+阅读 · 2015年8月3日
Top
微信扫码咨询专知VIP会员