Most well-established data collection methods currently adopted in NLP depend on the assumption of speaker literacy. Consequently, the collected corpora largely fail to represent swathes of the global population, which tend to be some of the most vulnerable and marginalised people in society, and often live in rural developing areas. Such underrepresented groups are thus not only ignored when making modeling and system design decisions, but also prevented from benefiting from development outcomes achieved through data-driven NLP. This paper aims to address the under-representation of illiterate communities in NLP corpora: we identify potential biases and ethical issues that might arise when collecting data from rural communities with high illiteracy rates in Low-Income Countries, and propose a set of practical mitigation strategies to help future work.


翻译:因此,所收集的社团基本上不能代表全球人口,而全球人口往往是社会上最脆弱和处于社会边缘地位的一些人口,而且往往生活在发展中农村地区,因此,这些代表人数不足的群体不仅在作出建模和系统设计决定时被忽视,而且无法从通过以数据为驱动的NLP取得的发展成果中受益。 本文旨在解决在NLP公司中文盲社区代表人数不足的问题:我们查明在收集低收入国家文盲率高的农村社区的数据时可能出现的潜在偏见和道德问题,并提出一套实际的缓解战略,以帮助今后的工作。

0
下载
关闭预览

相关内容

专知会员服务
124+阅读 · 2020年9月8日
专知会员服务
230+阅读 · 2020年5月6日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
108+阅读 · 2020年5月3日
专知会员服务
157+阅读 · 2020年4月21日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
156+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
180+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
已删除
将门创投
7+阅读 · 2018年8月28日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
Arxiv
12+阅读 · 2019年3月14日
Knowledge Representation Learning: A Quantitative Review
VIP会员
相关VIP内容
专知会员服务
124+阅读 · 2020年9月8日
专知会员服务
230+阅读 · 2020年5月6日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
108+阅读 · 2020年5月3日
专知会员服务
157+阅读 · 2020年4月21日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
156+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
180+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
相关资讯
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
已删除
将门创投
7+阅读 · 2018年8月28日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
Top
微信扫码咨询专知VIP会员