As language technologies become more ubiquitous, there are increasing efforts towards expanding the language diversity and coverage of natural language processing (NLP) systems. Arguably, the most important factor influencing the quality of modern NLP systems is data availability. In this work, we study the geographical representativeness of NLP datasets, aiming to quantify if and by how much do NLP datasets match the expected needs of the language speakers. In doing so, we use entity recognition and linking systems, also making important observations about their cross-lingual consistency and giving suggestions for more robust evaluation. Last, we explore some geographical and economic factors that may explain the observed dataset distributions. Code and data are available here: https://github.com/ffaisal93/dataset_geography. Additional visualizations are available here: https://nlp.cs.gmu.edu/project/datasetmaps/.


翻译:随着语言技术越来越普遍,人们正日益努力扩大语言多样性和自然语言处理系统(NLP)的覆盖面。可以说,影响现代NLP系统质量的最重要因素是数据可得性。在这项工作中,我们研究了NLP数据集的地理代表性,目的是量化NLP数据集是否与语言发言者的预期需求相匹配,用多少数量来量化NLP数据集。在这样做时,我们使用实体识别和链接系统,也对其跨语言一致性提出重要意见,并为更强有力的评价提出建议。最后,我们探讨了一些可能解释所观察到的数据集分布的地理和经济因素。这里有代码和数据:https://github.com/ffaisal93/ dataset_gegraphy。这里还有额外的可视化信息:https://nlp.cs.gmu.edu/project/datasetmaps/。

0
下载
关闭预览

相关内容

NLP:自然语言处理
【中科大】数值计算方法扩充课程,116页pdf
专知会员服务
81+阅读 · 2022年1月7日
【实用书】Python爬虫Web抓取数据,第二版,306页pdf
专知会员服务
117+阅读 · 2020年5月10日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
中文自然语言处理数据集:ChineseNLPCorpus
AINLP
33+阅读 · 2019年6月21日
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【推荐】Kaggle机器学习数据集推荐
机器学习研究会
8+阅读 · 2017年11月19日
【数据集】新的YELP数据集官方下载
机器学习研究会
16+阅读 · 2017年8月31日
资源|各领域公开数据集
七月在线实验室
5+阅读 · 2017年8月25日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
已删除
将门创投
8+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2022年2月8日
Arxiv
0+阅读 · 2022年2月8日
Arxiv
3+阅读 · 2018年3月2日
VIP会员
相关资讯
中文自然语言处理数据集:ChineseNLPCorpus
AINLP
33+阅读 · 2019年6月21日
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【推荐】Kaggle机器学习数据集推荐
机器学习研究会
8+阅读 · 2017年11月19日
【数据集】新的YELP数据集官方下载
机器学习研究会
16+阅读 · 2017年8月31日
资源|各领域公开数据集
七月在线实验室
5+阅读 · 2017年8月25日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
已删除
将门创投
8+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员