《一一一一一质量:对网上多语文多语文数据集的审计》 (Quality at a Glance: An Audit of Web-Crawled Multilingual Datasets)

Julia Kreutzer,Isaac Caswell,Lisa Wang,Ahsan Wahab,Daan van Esch,Nasanbayar Ulzii-Orshikh,Allahsera Tapo,Nishant Subramani,Artem Sokolov,Claytone Sikasote,Monang Setyawan,Supheakmungkol Sarin,Sokhar Samb,Benoît Sagot,Clara Rivera,Annette Rios,Isabel Papadimitriou,Salomey Osei,Pedro Ortiz Suárez,Iroro Orife,Kelechi Ogueji,Andre Niyongabo Rubungo,Toan Q. Nguyen,Mathias Müller,André Müller,Shamsuddeen Hassan Muhammad,Nanda Muhammad,Ayanda Mnyakeni,Jamshidbek Mirzakhalov,Tapiwanashe Matangira,Colin Leong,Nze Lawson,Sneha Kudugunta,Yacine Jernite,Mathias Jenny,Orhan Firat,Bonaventure F. P. Dossou,Sakhile Dlamini,Nisansa de Silva,Sakine Çabuk Ballı,Stella Biderman,Alessia Battisti,Ahmed Baruwa,Ankur Bapna,Pallavi Baljekar,Israel Abebe Azime,Ayodele Awokoya,Duygu Ataman,Orevaoghene Ahia,Oghenefego Ahia,Sweta Agrawal,Mofetoluwa Adeyemi

from arxiv, Accepted at TACL; pre-MIT Press publication version

With the success of large-scale pre-training and multilingual modeling in Natural Language Processing (NLP), recent years have seen a proliferation of large, web-mined text datasets covering hundreds of languages. We manually audit the quality of 205 language-specific corpora released with five major public datasets (CCAligned, ParaCrawl, WikiMatrix, OSCAR, mC4). Lower-resource corpora have systematic issues: At least 15 corpora have no usable text, and a significant fraction contains less than 50% sentences of acceptable quality. In addition, many are mislabeled or use nonstandard/ambiguous language codes. We demonstrate that these issues are easy to detect even for non-proficient speakers, and supplement the human audit with automatic analyses. Finally, we recommend techniques to evaluate and improve multilingual corpora and discuss potential risks that come with low-quality data releases.

翻译：近年来,随着在自然语言处理(NLP)方面的大规模预先培训和多语种建模工作的成功,近年来出现了涵盖数百种语言的大型网上文字数据集的激增。我们人工审核了以五大公共数据集(CC Commission、ParaCrawl、WikiMatrix、OSCAR、MC4)发布的205个语言专用公司的质量。低资源公司存在系统性问题:至少15个公司没有可用的文本,相当一部分公司含有低于50%的可接受质量的句子。此外,许多公司存在错误标签或使用非标准/模糊的语言代码。我们证明,即使对非熟练的演讲者来说,这些问题也很容易发现,并且用自动分析来补充人类审计。最后,我们建议评估和改进多语种公司的技术,并讨论低质量数据发布的潜在风险。

相关内容

数据集

关注 88

数据集，又称为资料集、数据集合或资料集合，是一种由数据所组成的集合。
Data set（或dataset）是一个数据的集合，通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量，如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数，该数据集的数据可能包括一个或多个成员。

【报告】2021年中国生命科学与医疗行业并购市场白皮书

专知会员服务

17+阅读 · 2021年10月4日

【跨语言BERT模型大集合】Transfer learning is increasingly going multilingual with language-specific BERT models

专知会员服务

54+阅读 · 2020年1月30日

可视化特征属性基线的影响，Visualizing the Impact of Feature Attribution Baselines

专知会员服务

10+阅读 · 2020年1月16日