本文最初发表于 unite.ai,经原作者 Martin Anderson 授权,InfoQ 中文站翻译并分享。
这两篇论文中,第一篇论文是由谷歌的五名研究人员撰写的,题目是《谁的基准真相?数据集标注背后的个体和集体的身份说明》(Whose Ground Truth? Accounting for Individual and Collective Identities Underlying Dataset Annotation);第二篇论文是由纽约雪城大学(Syracuse University)的两位研究人员撰写的,题目是《数据标注者之间分歧的起源和价值:仇恨言论标注中个体差异的案例研究》(The Origin and Value of Disagreement Among Data Labelers: A Case Study of Individual Differences in Hate Speech Annotation)。
谷歌的论文指出,众包工人自身的偏见可能会被植入到人工智能系统中,而人工智能系统的基准真相就是基于这些人的反应。这些众包工人经常在一系列限制条件下工作,这可能会影响他们对实验任务的反应方式。
例如,亚马逊 Mechanical Turk 的现行政策就允许请求者(那些分发任务的人)拒绝标注者的工作而无须承担责任:
绝大多数的众包工人(94%)都有过被拒绝的工作经历,或者没有得到报酬。但是,不管他们是接受还是拒绝,请求者都对他们收到的数据保留了全部权利。Roberts(2016) 将这种制度描述为“鼓励盗窃工资”。
拒绝工作和拖欠报酬是痛苦的,因为拒绝往往是由于不清晰的指示和缺乏有效的反馈渠道而导致的。许多众包工人报告说,沟通不畅会给他们的工作带来负面影响。
论文指出,利用外包服务来开发数据集的研究人员,应当思考众包平台是怎样对待其工人的。据悉,美国的众包工人被归为“独立承包商”,他们的工作既不受监管,也不受《公平劳动标准法案》(Fair Labor Standards Act)所规定的最低工资的保护。
这篇论文还提出了一个批评,即在没有考虑到标注者背景的情况下,雇用临时的、来自全球的劳动力来进行标注。
如果预算允许,使用 AMT 和类似的众包平台的研究人员经常把同一个任务分配给四个标注者,并且在结果上遵循“多数原则”。
论文认为,标注者的背景显然未被重视。比如,当三名 18~57 岁的男性和一名 29 岁的女性被随机地分配了一项关于性别歧视的任务,那么男性的判决将获得胜利,除非研究人员注意到这些标注者的背景信息,这种情况相对罕见。
类似地,一个有关芝加哥帮派行为的问题,分配给一名 36 岁的美国农妇、一名 42 岁的芝加哥男性居民以及两名分别来自班加罗尔和丹麦的标注者,在标准的外包配置中,最容易受到这个问题影响的人(芝加哥男性)在结果中只占有四分之一的份额。
研究人员表示:
“唯一真相”这一概念在众包回应中是个神话。标注者之间的分歧往往被认为是消极的,但事实上却能为人们提供有价值的信息。其次,由于许多众包标注者在社会人口统计学方面存在一定的偏差,这就会影响到哪些人是数据集的代表,哪些人将面对众包的挑战。
解释标注者人口统计学上的偏差是数据收集和确保负责任的下游应用的关键。总之,认同和顾及众包工人的社会和文化背景,不管从数据质量或社会影响上来说,都是很有意义的。
即使四名标注者的观点在人口统计学上或其他一些指标上都不存在偏差,但谷歌的这篇论文仍然担心研究人员没有将标注者的人生阅历或哲学取向纳入考量:
虽然有些任务倾向于提出有正确答案的客观问题(例如 “is there a human face in an image?”),但很多时候,数据集的目的是捕捉对相对主观的任务的判断,而非一个普遍正确的答案(例如 “is this piece of text offensive?”)。关键在于,它是否取决于标注者的主观判断。
针对仇恨言论标签问题的具体范围,雪城大学的论文提出了更为直截了当的问题,比如“Is there a cat in this photograph?”,与询问众包工人某个短语是否“有毒”有显著不同:
由于社会现实的纷繁复杂,人们对于“有毒”的理解也各不相同。他们以自己的认识为基础,对有害的内容进行标注。
雪城大学的研究人员发现,个性和年龄对仇恨言论的维度标签有 “实质性影响”,他们得出结论:这些发现表明,在具有不同背景和个性的仇恨言论的标注者之间,要想获得标注一致性,这种努力可能永远不会取得完全成功。
雪城大学的论文指出,这种缺乏客观性的情况也有可能向上迭代。该论文认为,人为干预(或自动决策,也是由人决定)来决定共识投票的“赢家”,也应该受到审查。
作者将这一过程比作论坛审核,并指出:
社区版主可以通过对帖子进行加精或隐藏,以及对用户进行表彰、羞辱或禁止,来决定帖子和用户在社区中的命运。版主的决定会对向社区成员和受众传达的内容产生影响,并将会对社区的讨论体验产生影响。
假设一个人类版主是一个社区成员,与其他社区成员具有人口统计学上的同质性,那么他们用来评估内容的心理图式似乎有可能与其他社区成员的心理图式相匹配。
这为雪城大学的研究人员为何对仇恨言论标注的未来,得出如此令人沮丧的结论提供了一些线索。其含义是,针对不同的众包意见的政策和判决呼吁,不能只按照“可接受的”原则随意应用,而这些原则在任何地方都无法被遵循(或者不能简化为可适用的模式,即使它们确实存在)。
做决定的人(众包工人)是有偏见的,如果他们没有偏见,对于这样的任务来说就毫无意义,因为任务就是要做出价值判断;而那些对众包结果中的争议做出判决的人,在指定有争议的政策时,也是在做出价值判断。
仅仅一个仇恨言论检测框架就可能有数百种政策,如果不把所有的政策都纳入最高法院,那么“权威性”的共识是从哪里来的呢?
谷歌的研究人员建议,“标注者之间的分歧可能蕴含着关于任务的宝贵细微差别”。该论文建议在数据集中使用元数据,以反映和说明争议。
但是,我们很难看到,这个特定背景下的数据层是怎样产生类似的度量标准,符合已建立的标准测试需求,或者支持任何明显的结论,除非是在这种不现实的情况:在后续工作中使用同一组研究人员。
所有这一切都是假设,一个研究项目甚至会有用于多个标注的预算,这些标注将导致共识投票。在许多情况下,研究人员试图通过指定众包工人应具备的特征,如地理位置、性别或者其他文化因素,以多元化换取特殊性,从而更廉价地“管理”外包标注者库。
谷歌的论文认为,应对这些挑战的方法可以是与标注者建立一个更大的沟通框架。
对标注者的如此仔细的考虑,自然会成为超大规模标注外包的障碍。最终导致要么出现更有限和低容量的数据集,要么标注者进行“仓促”评估,获得关于他们的有限细节,并且在信息不足的情况下,将他们定性为“适合任务”。这是在标注者诚实的前提下。
鉴于现有的劳动力报酬过低,对现有任务的竞争很激烈,并且职业前景渺茫,因此,标注员的动机就是要迅速提供“正确”的答案,并进行下一项小型任务。
雪城大学的论文认为,如果“正确答案”是比“有猫 / 无猫”更复杂的东西,众包工人也许会从问题的内容和上下文推导出“可接受的”答案。
替代性概念的扩散以及简单化的标注方法的广泛使用,都可以说是对网络仇恨言论研究进展的阻碍。例如,Ross 等人就 发现,将 Twitter 中关于仇恨行为的定义告诉标注者,会使他们在一定程度上将自己的观点与定义相一致。这样的调整会使标注员之间标注的可信度非常低。
Martin Anderson,记者、编辑,主要研究机器学习、人工智能和大数据。
原文链接:
https://www.unite.ai/the-invisible-often-unhappy-workforce-thats-deciding-the-future-of-ai/
你也「在看」吗?👇