Lexical semantic change (detecting shifts in the meaning and usage of words) is an important task for social and cultural studies as well as for Natural Language Processing applications. Diachronic word embeddings (time-sensitive vector representations of words that preserve their meaning) have become the standard resource for this task. However, given the significant computational resources needed for their generation, very few resources exist that make diachronic word embeddings available to the scientific community. In this paper we present DUKweb, a set of large-scale resources designed for the diachronic analysis of contemporary English. DUKweb was created from the JISC UK Web Domain Dataset (1996-2013), a very large archive which collects resources from the Internet Archive that were hosted on domains ending in `.uk'. DUKweb consists of a series word co-occurrence matrices and two types of word embeddings for each year in the JISC UK Web Domain dataset. We show the reuse potential of DUKweb and its quality standards via a case study on word meaning change detection.


翻译:字义的语义变化(发现字的含义和使用的变化)是社会和文化研究以及自然语言处理应用的一项重要任务。字嵌入(对时间敏感的矢量表示保留其含义的字)已成为这项任务的标准资源。然而,鉴于其生成所需的大量计算资源,很少有资源可用于将字义嵌入到科学界。在本文件中,我们介绍了DUKweb,这是一套大规模资源,用于对当代英语进行日光学分析。DUKweb是从UNJC Uk Web Domain数据集(1996-2013年)创建的,这是一个非常庞大的档案库,收集在`uk'结束的域内托管的因特网档案库中的资源。DUKweb由一系列的单词共生矩阵和每年在JSCIC Unow Domain数据集中的两种字嵌入式组成。我们通过对字意改变的探测进行个案研究,展示了DUKweb的再利用潜力及其质量标准。

0
下载
关闭预览

相关内容

分散式表示即将语言表示为稠密、低维、连续的向量。 研究者最早发现学习得到词嵌入之间存在类比关系。比如apple−apples ≈ car−cars, man−woman ≈ king – queen 等。这些方法都可以直接在大规模无标注语料上进行训练。词嵌入的质量也非常依赖于上下文窗口大小的选择。通常大的上下文窗口学到的词嵌入更反映主题信息,而小的上下文窗口学到的词嵌入更反映词的功能和上下文语义信息。
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
知识图谱在可解释人工智能中的作用,附81页ppt
专知会员服务
139+阅读 · 2019年11月11日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
学术报告|UCLA副教授孙怡舟博士
科技创新与创业
9+阅读 · 2019年6月18日
学术会议 | 知识图谱顶会 ISWC 征稿:Poster/Demo
开放知识图谱
5+阅读 · 2019年4月16日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
计算机类 | ISCC 2019等国际会议信息9条
Call4Papers
5+阅读 · 2018年12月25日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
已删除
将门创投
5+阅读 · 2018年1月24日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Arxiv
10+阅读 · 2018年3月22日
Arxiv
5+阅读 · 2018年1月30日
Arxiv
8+阅读 · 2014年6月27日
VIP会员
相关VIP内容
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
知识图谱在可解释人工智能中的作用,附81页ppt
专知会员服务
139+阅读 · 2019年11月11日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
相关资讯
学术报告|UCLA副教授孙怡舟博士
科技创新与创业
9+阅读 · 2019年6月18日
学术会议 | 知识图谱顶会 ISWC 征稿:Poster/Demo
开放知识图谱
5+阅读 · 2019年4月16日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
计算机类 | ISCC 2019等国际会议信息9条
Call4Papers
5+阅读 · 2018年12月25日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
已删除
将门创投
5+阅读 · 2018年1月24日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Top
微信扫码咨询专知VIP会员