在机器学习(ML)的整个流程中,人们扮演着至关重要的角色。人们通过复杂的分布式评估网络对大量数据进行注释,从而为机器学习算法的开发做出贡献。在机器学习部署端,专家从业人员在医疗保健、借贷、教育、社会服务和救灾等各种现实世界领域与 ML 模型成果合作。本论文的重点是研究和支持人类在复杂决策环境中的判断,以期改善他们与机器学习算法的整合。这项工作以研究人类行为的学科,特别是心理学、认知科学和人机交互学的丰富和肥沃土壤为基础,从定量和定性的角度研究不同社会技术系统中的情景人为因素,如众包、同行评审、ML 辅助决策等。具体来说,我们设计了统计工具,用于理解不同数据激发范式下的人类行为。下一步,我们将设计实验,从统计学角度深入了解人类在复杂环境下的决策偏差,从而支持循证政策改革,提高决策质量。为了改进现实世界环境中的人工智能部署,我们提出了特定领域和通用领域框架,以支持人类与人工智能的有效合作。这里的重点是理解和利用人类与 ML 工具的相对优势。本论文展示了在提高机器学习算法影响力这一更广泛的目标中强调人类作用的重要性。
机器学习(ML)技术的飞速发展,在很大程度上是由于它有望自动完成传统上认为只有人类才能完成的各种任务。从基于视觉表征识别数字的简单行为,到诊断胸片异常的复杂任务。对视觉表征的理解是现代机器学习方法的成就之一。其他进步包括但不限于自然语言处理、机器人等领域。这些技术进步的核心宗旨是希望复制和再现人类的能力。换句话说,要全面了解机器学习工具,就必须研究其设计初衷的人类印记。
人类的能力和智慧通过几种复杂的互动交织在 ML 工具的结构中。当我们仔细研究任何机器学习算法的设计和执行所涉及的不同过程时,这一点就会变得显而易见。实际上,在现实世界中部署一个 ML 模型包括三个主要阶段: (1) 收集数据,以捕捉模型的预期目标,例如,对于图像识别模型,可能需要收集带有注释的图像,以描述图像中感兴趣的特征;(2) 模型开发,在此过程中,采用精心选择的架构对模型进行训练,以学习预期目标;(3) 模型部署,将开发的 ML 工具部署到现实世界的环境中,例如自动驾驶汽车中的图像识别模型,它可以帮助驾驶员获得低功耗和安全的驾驶体验。
在本论文中,我们将重点关注人在人工智能设计和执行管道的第一和第三阶段中发挥的不可或缺的作用。人们在这些阶段的行为对 ML 工具产生了至关重要的影响,并直接影响到 ML 在实践中的成果。在数据收集阶段,除了最近使用合成数据训练 ML 模型的趋势之外,数据几乎完全由人生成。收集到的数据反映了参与生成数据的人的知识、经验等。经过训练,人工智能可以从数据中的模式中学习,其结果也反映了同样的知识和经验。之前的机器学习文献对这一现象进行了详细研究。从人们那里收集数据的一种常见方式是众包,即在众包平台上上传一项特定任务(如图像标记),由参与的工作人员为上传的图像提供注释。不难看出,众包工作者行为的特殊性会对根据这些数据训练出的最终模型产生怎样的影响。
接下来,模型部署阶段的具体情况会对模型的几个方面产生重要影响。例如,请看前面提到的视觉模型为驾驶提供帮助的例子。理想的驾驶助手应该能够在驾驶员即将犯错时发出警告,因此在这种情况下,合适的辅助模型在很大程度上取决于人类驾驶员的能力和需求。这一想法适用于所有引入人工智能工具来增强人类能力的现实环境。了解人工智能模型所要辅助的人类专家当前的能力和缺陷,对于设计一个能够在实践中实现改善整体结果目标的模型至关重要。
鉴于人的整合在塑造 ML 模型的行为及其在实际应用中的有用性方面发挥着重要作用,我的论文有助于设计工具和实验,以支持在复杂环境中更好地理解和整合人,从而改进 ML 工具。具体来说,这篇论文着眼于众包和会议同行评审领域,研究复杂数据激发环境中人类行为的不同方面。我们的研究结果揭示了人们在这两种环境下的行为中以前未经测试的细微差别和偏差,倡导在数据激发中进行以人为本的设计。接下来,关于人在模型部署阶段的作用,本论文研究了在分类和生成设置中人与人工智能成果的协作。我们阐明了了解人类专家和人工智能模型在任何任务中的相对优势对于支持有效的人类-人工智能协作的重要性。
第一部分侧重于理解众包中的人类决策行为。正如前面简要提到的,众包是训练机器学习模型的主要数据来源,而其中生成的数据质量会影响在此基础上训练的模型的行为。在本论文中,我们设计了统计工具来检查众包数据的属性。训练 ML 模型需要大量数据,因此我们利用高维统计学习技术为本章介绍的算法提供理论保证。具体来说,第 2 章提供了一种双样本测试算法,用于检测两个人群对一组项目的偏好(以排名表示)是否存在统计意义上的显著差异。第 3 章研究了在众包过程中,当众包者的专业水平信息可用时的数据聚合方法。具体来说,我们证明了一种流行的聚合方法--最大似然估计--在统计上是不被允许的。
第二部分侧重于理解同行评审中的人类决策行为。科学同行评审是一种复杂的数据激发设置,它由评审人和提交的论文组成,旨在找出最优秀的论文。这种设置以分布式人工评估为基础,其中每个评审员只评估一部分提交的论文,而每篇论文只由少数几个人进行评估。这种设置为研究人类行为提供了丰富的素材,同时也带来了一系列挑战,如主观性、偏见、激励机制错位等。本章的工作重点是研究同行评议数据,检验参与者的行为是否存在偏差,并据此提出基于证据的同行评议政策改革建议。第二部分的大部分技术工作包括:(1)设计实验,仔细收集会议同行评审中的人类评价数据;(2)应用统计技术,找出人们评价中的重要模式。
接下来,我们将在第三部分讨论本论文的第二个重点,即理解和支持人类与机器学习模型结果的整合。机器学习模型正被用于支持医疗保健、信用贷款、刑事司法等广泛领域的决策。例如,在刑事司法系统中,算法累犯风险评分为被告的审前保释决策提供依据。在高风险决策系统中引入 ML 辅助,就是要通过精心设计的混合决策系统,将人类认知和 ML 模型各自的优势结合起来并加以放大。因此,论文的第三部分旨在提出可行的见解,以提高人类与 ML 合作的有效性,从而提高其成果的质量。
在第 8 章中,我们延续了之前对人类决策中的偏差所做的研究,研究了人类认知偏差在人工智能辅助决策中的作用。这项研究是之前关于支持人类决策者适当依赖 ML 模型输出的研究的延续。
如前所述,有效的人类-人工智能合作关系的一个重要组成部分是了解人类与基于人工智能的决策在特定任务上的优势和局限性。虽然行为科学研究为人工智能模型补充人类认知能力(反之亦然)的潜在机会提供了见解,但还需要进一步的研究来(1)了解这些发现在具体的现实世界人类决策任务中的影响,然后(2)将这些见解付诸实施,以促进有效的人类-人工智能合作关系。因此,本论文的其余部分提出了在两类任务中实现人机交互互补的见解:预测性决策任务和生成性、共同创造性任务。相应地,第 9 章提出了预测决策中人机互补的通用领域和特定领域框架,第 10 章介绍了我们在审核人工智能模型中人机结合的特定领域工作。
这项工作旨在通过人类决策者及其与机器学习算法的结合,为大规模提高社会技术系统的决策质量提供可操作的见解。