许多人工智能应用需人类与AI顾问协同决策,但其成效取决于人类对AI代理的依赖是否适度。我们通过"四连棋"策略游戏平台,采用不同技能水平的神经网络代理,验证了一种评估方法。实验中,我们操控AI建议的存在性、呈现顺序、技能水平及信息展示方式(对手AI的技能水平有时变化),以测量其对用户表现的影响。
结果显示,获得AI建议的人类代理团队表现优于无辅助受试者,其中实时接收AI建议者取得最佳成绩。尽管团队表现更优且受试者在游戏过程中有所提升,但鲜有证据表明他们从AI顾问处习得策略。AI可靠性被证实为团队表现的核心决定因素——即使环境多变,受试者仍对高技能顾问保持信任。数学素养较高者展现最强AI建议运用能力,包括解析含选项排名与概率的详细输出格式。
高可靠性AI代理与高信任度正相关,而过度自信则导致更多拒绝建议、更高成功预期但实际表现略降。此类人机团队的效能取决于三大要素:AI可靠性、用户从建议中提炼洞见的能力,以及用户对建议的信任度。部署人机团队的组织需开展测试,评估用户对AI建议的合理依赖程度。