本文开发了基于充分统计量的方法,用于设计二元分类任务中的人机协作决策机制。该方法允许AI预测用于全自动化决策,或选择性辅助人类决策,同时兼容决策者的内生偏倚信念与努力挤出效应,无需构建人类决策的结构性模型。本方法经在线事实核查实验验证:人类对AI预测存在反应不足现象,且当AI呈现高置信度预测时会降低自身努力程度。这种不足反应主要源于人类对自身信号精度的过度自信,而非低估AI能力。最优策略为:AI高置信度时自动化处理,不确定性案例委托给人类并完整披露AI预测。自动化虽具价值,但利用AI预测辅助人类的额外收益微乎其微。

人工智能工具性能近年显著提升,诸多预测工具已媲美甚至超越人类(Kleinberg等, 2017; Agrawal等, 2018; Lai等, 2021)。该进展引发两大关注点:AI辅助如何影响人类表现(Brynjolfsson等, 2025);以及如何设计人机协作系统以确定案例应自动化处理,或交由人类决策(无论是否辅以AI预测)(Raghu等, 2019; Mozannar与Sontag, 2020)。

设计人机协作面临的核心挑战在于:可行方案空间庞大,且人类对设计方案的反应难以预测。人类可能对AI预测展现信念更新偏误(Agarwal等, 2023),而AI预测可能挤出人类获取或处理信息的努力——这种现象被称为算法规避(Dietvorst等, 2015)、自动化偏倚(Skitka等, 1999)或“行车时打盹效应”(Dell’Acqua, 2022)。响应行为的复杂性叠加协作方案的高维特征,使通过实验或结构建模寻求最优方案困难重重。

本文针对二元分类任务开发充分统计量方法,要求对多个案例输出分类结果a ∈ {0, 1}。充分统计量V(x)定义为:当人类决策者观测到经校准的AI评估值x∈[0,1](表示正确分类为1的概率)时,其正确分类案例的概率。该方法兼容任何基于自身评估选择性自动化分类任务,或在披露(可能不完美的)评估信号同时委派任务给人类的AI系统。在V函数不随信息披露策略改变的假设下,信息设计理论(Dworczak与Martini, 2019)证明:V函数可被用于求解该空间内的最优设计方案。这意味着——在给定V的条件下——最优设计独立于人类信息处理、行为偏误或努力响应等其他人机交互因素。V函数可直接利用向决策者完整披露AI评估值x时的决策准确率数据估算,此类数据可源自实验(如本研究)或历史观测。

该充分统计量方法相较于两种传统方案具显著优势。方案一需估计人类行为与信念更新的完整结构模型并求解最优设计,此过程需更强行为假设且估计所需数据(不同AI评估值x下的准确率)与直接估计V函数所需数据相同。方案二需通过实验测试大量设计寻找最优方案,但因设计空间巨大而不具实操性,且仍需理论论证所获最优解是否全局最优。

我们在激励性在线事实核查实验中实施并验证本方法。参与者需判断陈述真伪,此场景对人机协作研究具典型价值:公共陈述真实性受高度关注,人类与AI核查员均被广泛应用。尽管媒体、独立机构与数字平台长期依赖专业人类核查员(国际事实核查网络, 2023),待核查陈述数量的激增促使各方关注公众参与事实核查(Allen等, 2021; X社区笔记, 2025)及自动化核查(Guo等, 2022; 国际事实核查网络, 2023)。完善人机协作系统对提升事实核查效能具有现实意义。

事实核查亦是理想的实验场景:任务易于阐释且可由未经训练者执行;利用含基准真值标签的陈述数据库(如实验采用的FEVEROUS库(Aly等, 2021))可便捷测量准确率;该任务还表征了医疗诊断(Agarwal等, 2023)、司法保释决定(Kleinberg等, 2017)、简历筛选(Li等, 2020)等典型二元分类场景。

实验分两阶段推进:第一阶段通过测量不同AI评估值下的分类准确率估计充分统计量V,求解最优及近似最优设计。因社会往往偏好人类保留最终决策权(事实核查可能属此情形),我们同时考虑允许自动化和完全人类决策的设计。第二阶段在参与者内实验中实施五种基于第一阶段估计的方案,通过比较两阶段预测准确率与实际结果检验充分统计量方法。

成为VIP会员查看完整内容
3

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
《基于图计算的多机器人协同研究》最新139页
专知会员服务
29+阅读 · 5月28日
《人-AI协作设计:统计量方法》最新77页
专知会员服务
24+阅读 · 5月3日
《基于图计算的多机器人协调与协作​​》139页
专知会员服务
36+阅读 · 4月19日
《计算流体力学中的机器学习最新进展》综述
专知会员服务
34+阅读 · 2024年8月24日
《科学机器学习中神经网络结构的比较》最新65页报告
专知会员服务
27+阅读 · 2024年3月5日
【2022新书】深度学习归一化技术,117页pdf
专知
28+阅读 · 2022年11月25日
「知识增强预训练语言模型」最新研究综述
专知
17+阅读 · 2022年11月18日
基于模型的强化学习综述
专知
41+阅读 · 2022年7月13日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
170+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
472+阅读 · 2023年3月31日
Arxiv
77+阅读 · 2023年3月26日
Arxiv
171+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员