人工神经网络（ANN）已经成为完成一系列机器学习任务的流行工具，包括预测连续结果。然而，通常与预测相关的置信度的缺乏限制了它们的适用性，特别是在准确性至关重要的军事环境下。用预测区间（PI）来补充点预测是其他学习算法的常见做法，但ANN的复杂结构和训练使构建PI变得困难。如何在保持合理的计算时间的前提下，为ANNs的预测最好地构建最佳性能的PI是一个开放的问题。此外，人们对ANN构建的哪些因素会影响PI的性能知之甚少，这里定义为覆盖率和效率等术语。这项研究回答了这些问题，通过在11个不同大小和维度的数据集（包括一个基于图像的数据集）上执行两步实验来构建前馈神经网络的PI。两种非参数方法，即自举和保形推理，被考虑用于构建PI。第一个实验步骤的结果显示，某些设计选择，如网络的激活、节点数和层数，确实会影响PI的性能。为了优化PI的覆盖范围和效率，无论是使用自举还是保形推理，都对这些网络设计特征提供了指导意见。在第二步中，实施了20种不同的构建PI的算法--每种算法都利用了引导或保形推理的原则--以确定哪种算法能提供最好的性能，同时承担合理的计算负担。结果表明，一般来说，优化这种权衡的方法是交叉共形法，它在减少计算负担的同时保持了区间覆盖和效率。这项工作提供了设计选择和推理方法，可以为神经网络创建性能更好的预测区间，以便使其适应军事用途的先进算法。

I. 引言

1.1 背景

从自动驾驶汽车到智能手机上的面部识别技术，人工智能（AI）在其可扩展性和日常用途方面已经出现了爆炸性增长（"人工智能与自动驾驶"；Pascu，2021）。因此，美国防部（DoD）也对如何利用人工智能确保美国的国家安全产生了兴趣，这并不令人惊讶。事实上，2018年国防战略将人工智能的利用列为其关键的现代化优先事项之一（美国防部，2018：7）。为此，美国防部现在资助了600多个不同的人工智能项目，2022财年总额为8.74亿美元（OUSD（C），2021：3-2）。

在广泛的人工智能技术类别中存在着神经网络，它是松散地基于人脑学习方式的学习算法（Goodfellow, Bengio, and Courville, 2016:165）。像其他监督学习算法一样，神经网络学习输入或特征数据如何与输出或目标数据的值相关联。神经网络的新颖之处在于，它们可以学习复杂的模式，而不需要像其他机器学习算法那样事先进行特征工程（Goodfellow, Bengio, and Courville, 2016:166）。神经网络已经成为一种流行的强大工具，目前最先进的网络在图像和面部识别任务中达到了人类水平的表现（He, Zhang, Ren, and Sun, 2015; Taigman, Yang, Ranzato, and Wolf, 2014）。

尽管神经网络的潜力和应用令人振奋，但其预测的准确性与传统的回归技术有相同的局限性。具体来说，建模者假设目标变量是一些系统过程（可以通过回归算法学习）和随机误差（无法学习）的函数。因此，后者通常被称为 "不可减少的误差"（Gareth, Witten, Hastie, and Tibshirani, 2013:18）。因此，在回归估计中提供一些信心的衡量标准，如预测区间（PI），以量化这种不可减少的误差，往往是有帮助的。预测区间提供了一个值的范围，建模者认为未来的值将在这个范围内。预测区间的一个关键部分是它的置信系数，一般用百分比表示，当给定无限多的数据重样时，表明其准确性（Casella 和 Berger, 2002:418）。

虽然有几种计算神经网络PI的方法，但建模者在区间的有效性和计算负担方面面临着权衡。分析方法，如最大似然法或贝叶斯技术，需要对数据的分布进行非简单的假设（Papadopoulos, Edwards, and Murray, 2001），这些分布通常不能通过神经网络来实现。此外，为了生成这些方法的PI，神经网络的训练是复杂的，并且由于重复计算梯度矩阵（即Hessian）而大大延长了训练时间（Khosravi, Nahavandi, Srinivasan, and Khosravi, 2015）。无分布技术，如自举和各种共形推理方法，消除了对大多数假设的需要，但仍有其自身的缺点。具体来说，自举的PI通常需要训练数百个甚至数千个模型。这通常是一个无法维持的任务，特别是对于时间和计算机内存受到限制的大型网络。例如，考虑一个由20个VGG-16架构组成的集合--最先进的神经网络，专门用于物体识别任务，对人脸数据集进行训练（Rothe, Tomofte, and Van Gool, 2015）。根据这些网络的大小（"Keras应用"），该组合将占用超过10.5G的计算机内存。一些保形推理方法对从业者来说是一个潜在的有吸引力的选择。例如，归纳（"拆分"）和聚合保形预测法需要训练的模型比自举法少得多，也不会像分析性PI方法那样使网络训练复杂化。然而，这些方法产生的PI往往不如其他计算量更大的方法产生的PI信息量大（Cherubin, Chatzikokolakis, and Jaggi, 2021; Khaki and Nettleton, 2020）。此外，将保形推理用于神经网络仍然是一个相对较新的概念（Kivaronovic, Johnson, and Leeb, 2019），不同的参数在其应用中的效果仍然未知。例如，用内核密度估计（KDE）修改保形推理算法，显示出产生有利的PI的前景（Lei, Robins, and Wasserman, 2011），但在神经网络的背景下还没有被广泛地应用。

因此，在使用PIs为神经网络预测提供信心方面存在着知识差距。具体而言，人们对神经网络的参数化如何影响PI的性能知之甚少。对于这些不同的PI方法在神经网络环境中的比较效用和性能也知之甚少，因为建模者必须在准确性、训练时间和计算机内存的权衡中做出决定。这种知识差距，加上神经网络的困难训练方法，导致PI很少被提供给网络的回归估计（da Silva Neves, Roisenberg, and Neto, 2009）。

PIs的有限使用阻碍了民用和军用用户利用神经网络的全部优势，并延伸到人工智能。将置信水平与神经网络的预测联系起来，通过提供一个可能的数值范围，而不是单一的回归估计，增加了网络的可靠性和可用性（Papadopoulos, Edwards, and Murray, 2001）。可靠性是国防部的一个关键考虑因素，国防部试图将人工智能部署在对人的生命和设备有高度风险的情况下。例如，兰德公司调查了军事和人工智能专家，询问他们与军事人工智能相关的道德问题是什么，如果有的话（Morgan和其他人，2020:20）。两个最常见的担忧是，人工智能 "可能会犯危险的错误"，或者军事领导人可能会对人工智能的产出 "过于信任"（Morgan and others, 2020:20）。这两种担忧都与人工智能的输出缺乏相关的信心措施有关。

对这些问题的部分补救措施是改变这些人工智能的训练，以便在其基线输出之外提供PIs。然而，在做到这一点之前，需要更好地了解不同PI方法的比较性能，以及模型参数化如何影响这种性能。

1.2 研究目标

这项研究探讨了PI性能和神经网络结构之间的关系，以及不同PI方法在特定网络上的比较性能。调查的第一个研究问题是:

1.神经网络超参数的选择，如层数或激活函数的选择，是否会影响未来观测的预测区间的性能？如果存在影响PI性能的超参数，其影响是否因采用的PI方法而不同？

为了评估这个问题及其相关的子问题，我们设计了一个实验，以适应不同层、节点和激活函数的网络，跨越几个数据集。一个单独但可比较的设计探索了卷积神经网络（CNN）的设计选择，包括卷积层的数量，以及核的数量和大小。然后使用自举法和分裂保理法为这些网络中的每一个构建PI。然后使用方差分析（ANOVA）来确定哪些网络超参数会显著影响PI的性能，如统计学的 "有效性 "和 "效率 "所衡量。这些术语将在第2.3节进一步讨论。此外，该研究还试图回答。

2.给定一个特定的网络结构，哪种预测区间（PI）方法可以优化PI性能和计算负担之间的权衡？

在回答这个问题时，可以更好地理解哪些构建PI的方法在现实世界中表现最好，同时保持计算上可行的实现。用于回答第一个研究问题的网络是根据其样本外预测的平均平方误差（MSE）进行评估的，这是衡量模型对数据拟合质量的一个指标。然后进一步研究每个数据集的最佳性能网络结构。特别是，这些架构被重新训练以构建以下每种方法的PI:

Bootstrap（100和500的重样）。
百分数引导法（1,000个重样）。
完全顺应式，包括和不包括KDE
分离式构型，有或没有KDE
交叉构型（5、10和20的折叠），有或没有KDE
Bootstrap Conformal（5、10和20的重样），有无KDE。

1.3 研究重点

本研究的重点是第1.1节中讨论的无分布技术，特别是自举法和保形推理方法系列。自举刀是一种流行的估计技术，使用留出的残差，自举方法最初就是由它发展起来的，在本分析中没有探讨（Efron, 1979）。本实验还排除了构建 PIs 的分析技术，如最大似然法和贝叶斯法。正如第 2.3 节进一步讨论的那样，这类技术有时很难实现，需要反复计算梯度矩阵，而且还需要依赖渐进假设来创建有效的 PIs。假设国防部的神经网络用户将把重点放在更灵活的无分布方法上，这种方法可以在有限的分布假设下实施，而且不需要改变基线网络的训练过程。

按照同样的思路，这项研究关注的是PI的构建，相对于置信区间而言，军事应用中通常更关注PI。置信区间是对参数和预期值（平均值）的估计工具，而不是对随机变量的新观测值。在ML设置中，PI用于估计一个单一的、未知的目标变量在某组输入下可能采取的价值的不确定性，而CI将用于测量上述数量的平均值或长期期望值的不确定性。测量前者通常是从业者更关心的问题。最后，本分析中考察的数据集都有实值、连续的目标变量。不考虑用于分类任务的具有离散目标的数据集。