Artificial Intelligence (AI) is increasingly used to build Decision Support Systems (DSS) across many domains. This paper describes a series of experiments designed to observe human response to different characteristics of a DSS such as accuracy and bias, particularly the extent to which participants rely on the DSS, and the performance they achieve. In our experiments, participants play a simple online game inspired by so-called "wildcat" (i.e., exploratory) drilling for oil. The landscape has two layers: a visible layer describing the costs (terrain), and a hidden layer describing the reward (oil yield). Participants in the control group play the game without receiving any assistance, while in treatment groups they are assisted by a DSS suggesting places to drill. For certain treatments, the DSS does not consider costs, but only rewards, which introduces a bias that is observable by users. Between subjects, we vary the accuracy and bias of the DSS, and observe the participants' total score, time to completion, the extent to which they follow or ignore suggestions. We also measure the acceptability of the DSS in an exit survey. Our results show that participants tend to score better with the DSS, that the score increase is due to users following the DSS advice, and related to the difficulty of the game and the accuracy of the DSS. We observe that this setting elicits mostly rational behavior from participants, who place a moderate amount of trust in the DSS and show neither algorithmic aversion (under-reliance) nor automation bias (over-reliance).However, their stated willingness to accept the DSS in the exit survey seems less sensitive to the accuracy of the DSS than their behavior, suggesting that users are only partially aware of the (lack of) accuracy of the DSS.
翻译:人工智能(AI) 越来越多地用于在许多领域建立决策支持系统(DSS) 。 本文描述了一系列实验,目的是观察人类对DSS不同特征的反应,例如准确性和偏偏,特别是参与者依赖DSS的程度,以及他们的表现。 在我们的实验中,参与者玩一个简单的在线游戏,其灵感是所谓的“Wildcat”(即探索)钻探石油钻探的“DSS”(即探索)钻探。景观分为两层:景观分为两层分为两层:一个可见的一层层,描述成本(梯度),一个隐藏的一层,描述奖励(石油收益)的(石油收益)。 控制组参与者玩游戏时没有得到任何援助,而治疗组则得到DSS建议钻钻井地点的治疗组协助。就某些治疗方法而言,DSS不考虑成本,而只是奖励。 在不同的实验中,我们对DSS的准确性和偏差(即探索) 观察参与者的总分、 完成时间(DSS 、 遵守或无视建议的程度(DSS) 、 遵循DSS 度、 我们衡量DSS 的接受程度, 也似乎DSS 、 和 在离职调查中衡量 的接受程度 。 我们的结果显示DSS, 在DSS 评估中, 在DSS 评估中, 评估中, 显示参与者 和 显示DSS 和 评估中, 度 评估 度 度 度 显示 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度