从自动驾驶汽车到智能手机上的面部识别技术,人工智能(AI)在其可扩展性和日常用途方面已经出现了爆炸性增长("人工智能与自动驾驶";Pascu,2021)。因此,美国防部(DoD)也对如何利用人工智能确保美国的国家安全产生了兴趣,这并不令人惊讶。事实上,2018年国防战略将人工智能的利用列为其关键的现代化优先事项之一(美国防部,2018:7)。为此,美国防部现在资助了600多个不同的人工智能项目,2022财年总额为8.74亿美元(OUSD(C),2021:3-2)。在广泛的人工智能技术类别中存在着神经网络,它是松散地基于人脑学习方式的学习算法(Goodfellow, Bengio, and Courville, 2016:165)。像其他监督学习算法一样,神经网络学习输入或特征数据如何与输出或目标数据的值相关联。神经网络的新颖之处在于,它们可以学习复杂的模式,而不需要像其他机器学习算法那样事先进行特征工程(Goodfellow, Bengio, and Courville, 2016:166)。神经网络已经成为一种流行的强大工具,目前最先进的网络在图像和面部识别任务中达到了人类水平的表现(He, Zhang, Ren, and Sun, 2015; Taigman, Yang, Ranzato, and Wolf, 2014)。尽管神经网络的潜力和应用令人振奋,但其预测的准确性与传统的回归技术有相同的局限性。具体来说,建模者假设目标变量是一些系统过程(可以通过回归算法学习)和随机误差(无法学习)的函数。因此,后者通常被称为 "不可减少的误差"(Gareth, Witten, Hastie, and Tibshirani, 2013:18)。因此,在回归估计中提供一些信心的衡量标准,如预测区间(PI),以量化这种不可减少的误差,往往是有帮助的。预测区间提供了一个值的范围,建模者认为未来的值将在这个范围内。预测区间的一个关键部分是它的置信系数,一般用百分比表示,当给定无限多的数据重样时,表明其准确性(Casella 和 Berger, 2002:418)。虽然有几种计算神经网络PI的方法,但建模者在区间的有效性和计算负担方面面临着权衡。分析方法,如最大似然法或贝叶斯技术,需要对数据的分布进行非简单的假设(Papadopoulos, Edwards, and Murray, 2001),这些分布通常不能通过神经网络来实现。此外,为了生成这些方法的PI,神经网络的训练是复杂的,并且由于重复计算梯度矩阵(即Hessian)而大大延长了训练时间(Khosravi, Nahavandi, Srinivasan, and Khosravi, 2015)。无分布技术,如自举和各种共形推理方法,消除了对大多数假设的需要,但仍有其自身的缺点。具体来说,自举的PI通常需要训练数百个甚至数千个模型。这通常是一个无法维持的任务,特别是对于时间和计算机内存受到限制的大型网络。例如,考虑一个由20个VGG-16架构组成的集合--最先进的神经网络,专门用于物体识别任务,对人脸数据集进行训练(Rothe, Tomofte, and Van Gool, 2015)。根据这些网络的大小("Keras应用"),该组合将占用超过10.5G的计算机内存。一些保形推理方法对从业者来说是一个潜在的有吸引力的选择。例如,归纳("拆分")和聚合保形预测法需要训练的模型比自举法少得多,也不会像分析性PI方法那样使网络训练复杂化。然而,这些方法产生的PI往往不如其他计算量更大的方法产生的PI信息量大(Cherubin, Chatzikokolakis, and Jaggi, 2021; Khaki and Nettleton, 2020)。此外,将保形推理用于神经网络仍然是一个相对较新的概念(Kivaronovic, Johnson, and Leeb, 2019),不同的参数在其应用中的效果仍然未知。例如,用内核密度估计(KDE)修改保形推理算法,显示出产生有利的PI的前景(Lei, Robins, and Wasserman, 2011),但在神经网络的背景下还没有被广泛地应用。因此,在使用PIs为神经网络预测提供信心方面存在着知识差距。具体而言,人们对神经网络的参数化如何影响PI的性能知之甚少。对于这些不同的PI方法在神经网络环境中的比较效用和性能也知之甚少,因为建模者必须在准确性、训练时间和计算机内存的权衡中做出决定。这种知识差距,加上神经网络的困难训练方法,导致PI很少被提供给网络的回归估计(da Silva Neves, Roisenberg, and Neto, 2009)。PIs的有限使用阻碍了民用和军用用户利用神经网络的全部优势,并延伸到人工智能。将置信水平与神经网络的预测联系起来,通过提供一个可能的数值范围,而不是单一的回归估计,增加了网络的可靠性和可用性(Papadopoulos, Edwards, and Murray, 2001)。可靠性是国防部的一个关键考虑因素,国防部试图将人工智能部署在对人的生命和设备有高度风险的情况下。例如,兰德公司调查了军事和人工智能专家,询问他们与军事人工智能相关的道德问题是什么,如果有的话(Morgan和其他人,2020:20)。两个最常见的担忧是,人工智能 "可能会犯危险的错误",或者军事领导人可能会对人工智能的产出 "过于信任"(Morgan and others, 2020:20)。这两种担忧都与人工智能的输出缺乏相关的信心措施有关。对这些问题的部分补救措施是改变这些人工智能的训练,以便在其基线输出之外提供PIs。然而,在做到这一点之前,需要更好地了解不同PI方法的比较性能,以及模型参数化如何影响这种性能。