Human annotated data is the cornerstone of today's artificial intelligence efforts, yet data labeling processes can be complicated and expensive, especially when human labelers disagree with each other. The current work practice is to use majority-voted labels to overrule the disagreement. However, in the subjective data labeling tasks such as hate speech annotation, disagreement among individual labelers can be difficult to resolve. In this paper, we explored why such disagreements occur using a mixed-method approach - including interviews with experts, concept mapping exercises, and self-reporting items - to develop a multidimensional scale for distilling the process of how annotators label a hate speech corpus. We tested this scale with 170 annotators in a hate speech annotation task. Results showed that our scale can reveal facets of individual differences among annotators (e.g., age, personality, etc.), and these facets' relationships to an annotator's final label decision of an instance. We suggest that this work contributes to the understanding of how humans annotate data. The proposed scale can potentially improve the value of the currently discarded minority-vote labels.


翻译:人类附加说明的数据是当今人工智能工作的基石,但数据标签过程可能复杂而昂贵,特别是当人类标签者彼此意见不一致时。目前的工作实践是使用多数人投票的标签推翻分歧。然而,在主观数据标签任务中,如仇恨言论注释,个别标签者之间的分歧可能难以解决。在本文件中,我们探讨了为什么使用混合方法,包括专家访谈、概念绘图练习和自我报告项目等方法出现这种分歧,以形成一个多层面的规模,用于蒸馏说明说明说明说明说明说明煽动仇恨言论者如何贴标签的过程。我们用170个注解员在仇恨言论注解任务中测试了这一规模。结果显示,我们的规模可以揭示说明说明说明者(例如年龄、个性等)之间个人差异的方方面面,以及这些方面与一个标注者的最后标签决定之间的关系。我们建议,这项工作有助于了解人类如何作注的数据。拟议的规模有可能提高目前被丢弃的少数群体投票标签的价值。

0
下载
关闭预览

相关内容

视频隐私保护技术综述
专知会员服务
34+阅读 · 2022年1月19日
专知会员服务
20+阅读 · 2021年8月17日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
已删除
将门创投
5+阅读 · 2019年8月19日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
LibRec 精选:推荐系统的常用数据集
LibRec智能推荐
17+阅读 · 2019年2月15日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【计算机类】期刊专刊/国际会议截稿信息6条
Call4Papers
3+阅读 · 2017年10月13日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
Arxiv
8+阅读 · 2018年11月27日
Arxiv
9+阅读 · 2018年10月24日
VIP会员
相关资讯
已删除
将门创投
5+阅读 · 2019年8月19日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
LibRec 精选:推荐系统的常用数据集
LibRec智能推荐
17+阅读 · 2019年2月15日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【计算机类】期刊专刊/国际会议截稿信息6条
Call4Papers
3+阅读 · 2017年10月13日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
Top
微信扫码咨询专知VIP会员