谷歌请印度标注员给Reddit评论数据集打标签，错误率高达30%？

会员服务 ·

谷歌请印度标注员给Reddit评论数据集打标签，错误率高达30%？

2022 年 7 月 20 日 极市平台

↑ 点击蓝字关注极市平台

作者丨蛋酱

来源丨机器之心

编辑丨极市平台

极市导读

可以确定的是，人工标注员完全没懂 Reddit 网友的梗。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

去年，谷歌发布了 GoEmotions 数据集，该数据集包含 58K 人工标注的 Reddit 评论，其中涉及 27 种情绪。

但一位名叫 Edwin Chen 的机器学习工程师却在使用该数据集的时候，偶然发现了一些令人哭笑不得的错误。

他们本来尝试自己在 GoEmotions 数据集上训练模型，注意到似乎存在一些深层的质量问题。于是他们 随机抽取了 1000 条评论，在其中 308 条中发现了严重错误 。

这里举一些有代表性的例子：

aggressively tells friend I love them—— 被标记为「愤怒」
Yay, cold McDonald's. My favorite.—— 被标记为「喜爱」
Hard to be sad these days when I got this guy with me—— 被标记为「悲伤」
Nobody has the money to. What a joke—— 被标记为「愉悦」
……

光是从抽取的评论中，他们就统计到了 25 种被错误标记的情绪。

在人工智能领域，数据标注是一项非常基础，但也非常关键的工作。好的数据对于训练模型至关重要，当数据面临如此离谱的错误时，又该怎么训练模型并评估模型的性能呢？

Edwin Chen 最后发问：「我们真的可以相信谷歌能够创造出公正的现实世界人工智能吗？」

所以，是什么导致了这些问题？

有人说：「有没有可能，他们没请人工标注员，或者请的人工标注员并未掌握流利的英语？」

据了解，GoEmotions 数据集的标注还是有人工参与的，只不过这些标注员是「以英语为母语的印度人」。

在论文的第 3.3 节中，有这么一段话：「我们给每个样本分配了三个评估者。对于那些评估者没有达成一致的样本，我们分配了两个额外的评估者。所有评估者都是以英语为母语的印度人。」

因为根据「Cowen et al. (2019b) 这项研究的结论，印度和美国两地的英语使用者的情绪判断维度很大程度上是相同的。

事实是，尽管掌握了流利的英语，标注员之中的许多人可能不了解所标注文本的文化、社会背景。但这却是关键要点之一，尤其是对于 NLP 数据集，标注者必须具备充分的文化意识。

也就是说，鉴于很多标注员可能缺乏必要的背景知识，即使大多数的数据标注都不存在争议了（如上图），也不代表标注结果就是完全正确的。

造成这种问题的另一个重要原因是，数据集中的数据都没有附加的元数据 (比如作者或子版块名称)。原论文中也提到了这一点：

语言不是处于真空之中的，它所在的版块等信息非常重要。谷歌在构建数据集时却忽略了这一点。

这不是一个孤立事件：作者还提到，假如连谷歌这种拥有大量资源的公司都难以创建准确的数据集，那么我们见过的其他数据集质量更是难以想象。

好消息是，已经有学者关注到了这个问题。上个月，吴恩达发起了「以数据为中心的 AI」倡议，他表示，专注于提升人工智能系统的数据质量将有助于释放其全部力量。

如果你想部署现实中 work 的机器学习模型，是时候关注高质量数据集而不是更大的模型了。

参考链接：

https://arxiv.org/pdf/2005.00547.pdf

https://www.surgehq.ai/blog/30-percent-of-googles-reddit-emotions-dataset-is-mislabeled

公众号后台回复“ECCV2022”获取论文分类资源下载～

△点击卡片关注极市平台，获取最新CV干货

‍

极市干货

算法项目： CV工业项目落地实战大航海 | 附极力值攻略｜极市打榜｜目标检测算法上新！（年均分成5万）

实操教程：Pytorch - 弹性训练原理分析｜《CUDA C 编程指南》导读

极视角动态：极视角作为重点项目入选「2022青岛十大资本青睐企业」榜单！｜极视角发布EQP激励计划，招募优质算法团队展开多维度生态合作！

“

点击阅读原文进入CV社区

收获更多技术干货

登录查看更多

相关内容

标注

关注 2

【剑桥大学博士论文】《用于英语口语自动评估和反馈的深度学习》282页

专知会员服务

5+阅读 · 2022年8月18日

1370亿参数、接近人类水平，谷歌对话AI模型LaMDA放出论文

专知会员服务

46+阅读 · 2022年1月24日

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

专知会员服务

14+阅读 · 2020年3月27日

[华盛顿大学】微调预训练的语言模型:权重初始化、数据顺序和早期停止

专知会员服务

23+阅读 · 2019年12月15日

【论文】自训练噪声student模型提高ImageNet分类准确率（Self-training with Noisy Student improves ImageNet classification），谷歌研究科学家Quoc V. Le等

专知会员服务

24+阅读 · 2019年11月20日

“LaMDA 存在种族歧视，谷歌的 AI 伦理不过是‘遮羞布’！”

CSDN

0+阅读 · 2022年8月2日

被罚“带薪休假”一个月后，谷歌解雇了“爱”上 AI 的他

CSDN

0+阅读 · 2022年7月25日

谷歌AI看不懂网友评论，会错意高达30%，网友：你不懂我的梗

量子位

0+阅读 · 2022年7月18日

人的情绪岂止6种？Google发布大规模数据集GoEmotions，情感类别提升到28种

新智元

2+阅读 · 2021年11月17日

深度学习变天，模型越做越小！Google发布FLAN，模型参数少400亿，性能超越GPT-3

THU数据派

0+阅读 · 2021年9月17日

基于互联网海量信息的数据库文本类型数据清洗研究

国家自然科学基金

1+阅读 · 2013年12月31日

机器翻译中大规模异类特征的迁移学习

国家自然科学基金

2+阅读 · 2013年12月31日

西瓜果皮色泽相关基因的筛选、分离及克隆

国家自然科学基金

0+阅读 · 2012年12月31日

基于Multi-Agent的应急状态下协同供应链数据集成研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于本体的深层网络数据集成方法研究

国家自然科学基金

2+阅读 · 2009年12月31日

Maximum Likelihood Training of Implicit Nonlinear Diffusion Models

Arxiv

0+阅读 · 2022年9月16日

Faster Meta Update Strategy for Noise-Robust Deep Learning

Arxiv

11+阅读 · 2021年4月30日

已删除

Arxiv

33+阅读 · 2020年3月23日

Self-Supervised Learning For Few-Shot Image Classification

Arxiv

19+阅读 · 2019年11月14日

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

VIP会员