《人-AI协作设计：统计量方法》最新77页

本文开发了一种充分统计量方法，用于在二分类任务中设计人机协作决策策略（AI预测可被用于自动化决策或选择性辅助人类）。该方法允许内生性偏误信念与努力挤出效应，而无需构建人类决策的结构化模型。我们通过在线事实核查实验验证该方法的有效性，发现人类对AI预测存在响应不足，且在AI高置信度预测下降低努力投入。AI响应不足更多源于人类对自身信号精度的过度自信，而非低估AI能力。最优策略对AI置信案例实施自动化，将不确定案例委派人类并完整披露AI预测。尽管自动化具有价值，但通过AI预测辅助人类带来的边际效益微乎其微。

近年来人工智能工具性能快速提升（Maslej等，2024），诸多预测工具达到或超越人类水平（Kleinberg等，2017；Agrawal等，2018；Lai等，2021）。相应引发对AI辅助如何影响人类绩效（Noy和Zhang，2023；Brynjolfsson等，2025）及人机协作系统设计的广泛关注（Raghu等，2019；Mozannar和Sontag，2020；Agarwal等，2023）。

设计人机协作的挑战在于潜在协作模式空间庞大且人类响应难以预测。人类可能对AI信息呈现信念更新偏误（Agarwal等，2023），AI信息可能挤出人类信息获取或处理努力（表现为算法厌恶、自动化偏误或"自动驾驶效应"）。这些复杂响应与高维设计空间使得通过实验或结构建模寻找最优方案面临困难。

本文针对二分类任务开发充分统计量方法（每个案例需分类为a∈{0,1}）。充分统计量V(x)表示当人类决策者观察到经校准的AI评估（正确分类概率为x∈[0,1]）时的正确分类概率。允许任何基于AI评估选择性自动化分类任务或向人类委派任务（同时披露可能不完美的评估信号）的系统。在V函数不依赖信息披露策略的假设下，信息设计文献结论（Dworczak和Martini，2019）表明V可用于寻找最优设计，即条件于V的设计问题不依赖人机交互其他要素（如人类信息、行为偏误或努力响应）。

相较两种传统方案，充分统计量方法具显著优势：其一，通过估计人类行为与信念更新的全参数模型求解最优设计（需更强行为假设且数据需求相似）；其二，实验测试多设计方案（因设计空间庞大而不具实操性，且无法保证全局最优）。

我们在事实核查激励实验中实施与验证该方法。参与者需核查声明真实性。事实核查是研究人机协作的重要场景（涉及公共利益且人机核查广泛应用），同时便于实验操作：任务易解释、非专业参与者可完成、准确性易度量（采用FEVEROUS数据库标注真伪声明）。该场景也代表医疗诊断、司法保释决策、简历筛选等二分类任务。

实验分两阶段：第一阶段通过不同AI预测下的分类准确率估计V函数并求解最优与近似最优设计（考虑允许自动化与强制人类决策方案）；第二阶段在第一阶段估计基础上实施五种设计，通过组内实验验证充分统计量方法的预测准确性。

第一阶段结果揭示：1）估计V函数呈凸性（全披露AI预测对委派案例最优），与部分披露更优的既往结论（Athey等，2020；Dell’Acqua，2022）相异；2）AI高置信度时人类准确率显著低于自动化（V(x)<max{x,1−x}），需自动化处理；3）AI不确定预测对人类增益有限（最优策略为AI自信案例自动化+不确定案例无辅助委派人类）。

最优设计预测显示：允许自动化时FDA策略（全披露+自动化）最优，其准确率与NDA策略（无披露+自动化）近似；禁止自动化时FDNA策略（全披露+无自动化）最优且显著优于NDNA（无辅助），与SL策略（三色信号提示）效果相近。

第二阶段实验验证五类策略表现：所有预测误差小于1.6个百分点（1%水平不显著），定性预测均成立（FDA与NDA无统计差异最优；FDNA与SL无差异且显著优于NDNA），证明充分统计量假设的有效性。

机制分析发现：1）信念更新误差导致至少7.7%AI辅助错误分类；2）AI响应不足主因人类对自身信号精度过度自信（相对贝叶斯基准过度敏感但AI响应适当）；3）精确AI信息挤出人类努力但对信号精度影响微弱。