从医疗诊断到人才招聘,基础模型有望在关键领域带来变革性突破。然而,当这些系统产生幻觉(生成虚假内容)、存在歧视或发生静默失效时,亦可能对人类造成严重危害。要使人工智能兑现其潜力,必须同时满足两个条件:系统本身具备可信性(trustworthiness),且人类对其建立适度信任(appropriate trust)。
二者共同构成AI有益部署的前提,且均需兼顾技术与人文维度。本论文采用跨学科方法,融合理论建模、实证验证与人本研究,系统探究可信性与信任的三大核心组件: 第一,可信数据选择
通过临床机器学习与人类反馈强化学习(RLHF)中的奖励建模实证,揭示数据质量比数据规模更重要。即使无法确保全域数据质量,本研究提出一种分布鲁棒性(distributional robustness)概念,可在高质量数据子集上保持模型性能。 第二,可信AI决策
• 构建统一的公平性框架,在存在刻板印象的场景中实现公平决策; • 设计抗策略机制(strategy-proof mechanism),当候选人使用AI增强申请材料时,该机制能同时保障筛选过程的公平性与准确性。 第三,部署中的AI辅助信任
通过用户实证研究发现: • 异议性解释(dissenting explanations)可有效降低人类对AI的过度依赖; • 依赖AI编程会显著削弱人类编程技能的形成(skill formation)。 这些贡献通过理论、实证与人本方法的互补路径,为构建兼具内在可信性的AI系统奠定基础——不仅使系统本身可靠,更赋能人类建立理性、适度的信任关系,从而实现技术价值与社会福祉的协同增益。