虽然人工智能(AI)在各种游戏和现实任务中的表现似乎正在超越人类专家,但这些算法在部署时却容易出现系统性的、令人惊讶的失败。与当今最先进的算法相比,人类具有很强的适应新环境的能力。人类和人工智能的不同优缺点为新兴的人类-人工智能协作领域提出了一个指导性研究问题: 人类解决问题的能力与人工智能系统的结合在何时、何地、为何以及如何产生超越(或未能超越)人类或机器单独性能的混合系统?本论文通过在深度赝品检测、皮肤病诊断和 Wordle 这三个不同的任务和领域进行大规模的数字实验,从不同层面探讨了这一指导性问题。首先,深层赝品检测实验研究了人类和机器视觉在识别视频中的人脸视觉操作方面的异同,并确定了混合系统与仅用于深层赝品检测的人类或人工智能系统之间的重要性能权衡。其次,皮肤病诊断实验揭示了非视觉信息往往是诊断皮肤病的关键,纯图像存储转发远程皮肤病诊断中存在不同肤色的诊断准确率差异,基于公平深度学习系统的临床决策支持可以显著提高医生在该实验环境中的诊断准确率。第三,Wordle 实验表明,以数字为媒介的共情表达可以抵消愤怒对人类创造性解决问题的负面影响。除了这些数字实验之外,本论文还对临床皮肤科图像进行了两次算法审核,以揭示最先进算法中出现系统误差的地方,研究了上下文如何影响自动情感识别,并提出了更有效地将上下文纳入应用机器学习的方法。总之,这些贡献为人类与人工智能在各种任务和领域的合作成功与失败提供了经验证据,为如何更有效地设计人类与人工智能合作提供了见解,并为混合系统何时何地应该依赖人类解决问题提供了框架。