本文开发了一种充分统计量方法,用于在二分类任务中设计人机协作决策策略(AI预测可被用于自动化决策或选择性辅助人类)。该方法允许内生性偏误信念与努力挤出效应,而无需构建人类决策的结构化模型。我们通过在线事实核查实验验证该方法的有效性,发现人类对AI预测存在响应不足,且在AI高置信度预测下降低努力投入。AI响应不足更多源于人类对自身信号精度的过度自信,而非低估AI能力。最优策略对AI置信案例实施自动化,将不确定案例委派人类并完整披露AI预测。尽管自动化具有价值,但通过AI预测辅助人类带来的边际效益微乎其微。

近年来人工智能工具性能快速提升(Maslej等,2024),诸多预测工具达到或超越人类水平(Kleinberg等,2017;Agrawal等,2018;Lai等,2021)。相应引发对AI辅助如何影响人类绩效(Noy和Zhang,2023;Brynjolfsson等,2025)及人机协作系统设计的广泛关注(Raghu等,2019;Mozannar和Sontag,2020;Agarwal等,2023)。

设计人机协作的挑战在于潜在协作模式空间庞大且人类响应难以预测。人类可能对AI信息呈现信念更新偏误(Agarwal等,2023),AI信息可能挤出人类信息获取或处理努力(表现为算法厌恶、自动化偏误或"自动驾驶效应")。这些复杂响应与高维设计空间使得通过实验或结构建模寻找最优方案面临困难。

本文针对二分类任务开发充分统计量方法(每个案例需分类为a∈{0,1})。充分统计量V(x)表示当人类决策者观察到经校准的AI评估(正确分类概率为x∈[0,1])时的正确分类概率。允许任何基于AI评估选择性自动化分类任务或向人类委派任务(同时披露可能不完美的评估信号)的系统。在V函数不依赖信息披露策略的假设下,信息设计文献结论(Dworczak和Martini,2019)表明V可用于寻找最优设计,即条件于V的设计问题不依赖人机交互其他要素(如人类信息、行为偏误或努力响应)。

相较两种传统方案,充分统计量方法具显著优势:其一,通过估计人类行为与信念更新的全参数模型求解最优设计(需更强行为假设且数据需求相似);其二,实验测试多设计方案(因设计空间庞大而不具实操性,且无法保证全局最优)。

我们在事实核查激励实验中实施与验证该方法。参与者需核查声明真实性。事实核查是研究人机协作的重要场景(涉及公共利益且人机核查广泛应用),同时便于实验操作:任务易解释、非专业参与者可完成、准确性易度量(采用FEVEROUS数据库标注真伪声明)。该场景也代表医疗诊断、司法保释决策、简历筛选等二分类任务。

实验分两阶段:第一阶段通过不同AI预测下的分类准确率估计V函数并求解最优与近似最优设计(考虑允许自动化与强制人类决策方案);第二阶段在第一阶段估计基础上实施五种设计,通过组内实验验证充分统计量方法的预测准确性。

第一阶段结果揭示:1)估计V函数呈凸性(全披露AI预测对委派案例最优),与部分披露更优的既往结论(Athey等,2020;Dell’Acqua,2022)相异;2)AI高置信度时人类准确率显著低于自动化(V(x)<max{x,1−x}),需自动化处理;3)AI不确定预测对人类增益有限(最优策略为AI自信案例自动化+不确定案例无辅助委派人类)。

最优设计预测显示:允许自动化时FDA策略(全披露+自动化)最优,其准确率与NDA策略(无披露+自动化)近似;禁止自动化时FDNA策略(全披露+无自动化)最优且显著优于NDNA(无辅助),与SL策略(三色信号提示)效果相近。

第二阶段实验验证五类策略表现:所有预测误差小于1.6个百分点(1%水平不显著),定性预测均成立(FDA与NDA无统计差异最优;FDNA与SL无差异且显著优于NDNA),证明充分统计量假设的有效性。

机制分析发现:1)信念更新误差导致至少7.7%AI辅助错误分类;2)AI响应不足主因人类对自身信号精度过度自信(相对贝叶斯基准过度敏感但AI响应适当);3)精确AI信息挤出人类努力但对信号精度影响微弱。

成为VIP会员查看完整内容
3

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
《基于图计算的多机器人协调与协作​​》139页
专知会员服务
28+阅读 · 4月19日
【牛津大学】贝叶斯优化用于自动化机器学习,321页pdf
专知会员服务
31+阅读 · 2024年5月17日
《基于信念的决策建模计算框架》141页
专知会员服务
59+阅读 · 2024年4月27日
最新《非凸优化理论》进展书册,79页pdf
专知会员服务
110+阅读 · 2020年12月18日
【2022新书】深度学习归一化技术,117页pdf
专知
27+阅读 · 2022年11月25日
【2022新书】Python数学逻辑,285页pdf
专知
12+阅读 · 2022年11月24日
基于模型的强化学习综述
专知
37+阅读 · 2022年7月13日
基于深度学习的NLP 32页最新进展综述,190篇参考文献
人工智能学家
27+阅读 · 2018年12月4日
论文笔记之attention mechanism专题1:SA-Net(CVPR 2018)
统计学习与视觉计算组
16+阅读 · 2018年4月5日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
168+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
453+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
167+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员