从医学诊断到招聘决策,基础模型(foundation models)有望在多个关键领域带来变革性进展。然而,这些系统在产生幻觉、实施歧视或悄然失败时,也可能对人类造成负面后果。要使人工智能真正释放其潜力,必须满足两个条件:系统本身必须是可信的(trustworthy),并且人类必须对其形成恰当的信任(trust)。 可信性是一种系统属性,体现在可靠性、公平性和准确性等方面;而信任则是一种人类态度,是优秀技术所促成的结果,表现为人类愿意依赖 AI 的输出并据其建议采取行动。这两者都是实现 AI 有益部署的必要前提,且都需要同时关注技术维度与人文维度。 本论文采取多学科研究方法,结合理论建模、实证验证与以人为中心的研究,系统性地探究信任与可信性的三个关键组成部分。 首先,我研究了可信数据选择问题,论证了在临床机器学习以及基于人类反馈的强化学习奖励建模中,数据质量的重要性高于数据规模。即便在无法保证数据质量的情况下,我提出了一种鲁棒性概念,能够在分布中高质量子区域上保持模型性能。 其次,我提出了可信 AI 决策的方法,构建了一个在刻板印象存在条件下统一地定义与应用公平性的框架,并设计了一种策略无关(strategy-proof)机制,在使用 AI 增强申请材料的候选人筛选场景中,同时保证公平性与准确性。 第三,我研究了AI 辅助系统部署阶段中的信任问题。通过用户研究,我发现提出异议性的解释(dissenting explanations)能够减少用户对 AI 的过度依赖,同时也表明,在编程任务中依赖 AI 会对人类技能形成产生负面影响。 综上所述,这些工作通过相互补充的理论分析、实证研究与以人为中心的方法,为构建不仅本身可信、且能够促使人类形成恰当信任的 AI 系统奠定了基础。

成为VIP会员查看完整内容
0

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
微信扫码咨询专知VIP会员