在过去的十年里,深度学习取得了令人兴奋的进展。随着大型基础模型的不断发展和在现实生活中的应用,一个重要的问题是,我们如何使这些昂贵、难以解读的模型更加高效和可靠。在这篇论文中,我们提出了一系列基于共形预测的基本技术来构建和部署有效的深度学习系统。共形预测是一种模型不可知且无分布的不确定性估计框架。我们开发了理论和实践,利用不确定性估计来构建适应性模型,这些模型运行成本更低,具有理想的性能保证,且通用性足以在许多现实世界场景中表现良好。在实证研究中,我们主要关注自然语言处理(NLP)应用,同时对计算机视觉、药物发现和医学领域的任务进行了大量拓展。
近年来,深度学习方法的稳步进展已导致在自然语言处理(Devlin et al., 2019; Brown et al., 2020; Schulman et al., 2023)、计算机视觉(He et al., 2015; Dosovitskiy et al., 2021)、计算化学(Jumper et al., 2021)以及预测医学(Yala et al., 2021; Mikhael et al., 2023)等领域广泛且有时是革命性的突破。这一进展的重要部分可以归因于规模:在前所未有的数据量上训练的大型基础模型改变了许多预测任务的建模和解决方式。同时,随着这些模型开始渗透到现实生活应用中,新的挑战开始出现。特别是,最优秀的现代模型的巨大计算占用使得运行成本高昂,甚至这些最好的模型在部署期间也不可避免地会犯下有害的错误。 在这篇论文中,我们基于共形预测开发了严格的统计工具,以帮助解决这些相互关联的挑战的多个方面。共形预测(Vovk et al., 2005)是一个日益受到机器学习社区欢迎的不确定性估计框架,因其有利的模型不可知、无分布、有限样本保证而受到青睐。我们在共形预测的基础上提出了几项基本的理论和实证进步,帮助用户安全地使用在真实世界中出现的困难但常见情况下部署的模型。同时,我们还展示了如何利用这些不确定性估计技术通过采取相反的方法来做出更高效的预测:对于简单的输入,采用不那么保守的方式,并选择使用更便宜、更简单的函数来做出预测——但仍确保对模型整体性能的任何降级都严格限制在一定范围内。
在大型神经网络中的高效计算如变压器(Transformers,Vaswani et al., 2017b)等大型多层神经网络已成为解决自然语言处理等任务的事实标准方法。然而,尽管它们表现出色,但它们通常巨大的计算负担使得运行成本高昂。关于它们效率的担忧引发了该领域的大量研究(Schwartz et al., 2020a)。使模型更高效通常不是免费的:加速推断的简单技术可能会导致对依赖维度的不可预测打击,如模型准确性,特别是在更难、少数群体子集的最坏情况下。然而,一个关键的洞察是,这种退化可以从输入到输入变化——并非所有示例都需要相同的计算量(例如,可以使用简单函数来推断它们的标签)。我们开发了允许神经网络中根据输入示例的复杂性进行自适应计算的技术,并提供了精确的概率上界,用于可能遭受的误差增加。
严谨的、通用目的的不确定性估计使模型更高效运行使它们能够在计算限制可能是限制因素的实际场景中更广泛地部署。然而,随着模型在现实世界中的更广泛部署,它们有可能犯下昂贵的错误。大多数现代系统输出单一预测——无论是实值、标签、自由形式生成的文本、结构化对象还是其他响应变量。然而,对于许多应用程序,用有意义的不确定性估计来丰富这种预测也至关重要(Amodei et al., 2016; Jiang et al., 2012, 2018; Rajpurkar et al.,2018)。在敏感的高风险应用中(如医学应用),显示置信度指标(实际反映模型是否可能正确或错误)与获得高准确性一样重要。不确定性估计也在用户无法轻易验证答案本身并必须盲目信任时相关。例如,大多数机器翻译系统用户无法知道特定翻译是否准确。可靠的不确定性估计可以缓解这些错误的一些负面后果。一个意识到自己不确定性的模型可以用来(1)告诉用户它有多确信某个概率,(2)说它确信正确答案是几个选项之一,或者(3)完全放弃预测,以转而依赖于不同的模型或人类。在这篇论文中,我们探索了这些方向的几个,并在共形预测的基础上建立了用于校准具有可证明性能保证的集合值不确定性估计的额外重要基础。具体而言,我们提出了对共形预测的扩展,这些扩展可以可证明地控制各种类型的风险,更适合于具有非唯一答案的大标签空间,适用于具有有限校准数据的少数镜头设置进行验证,以及在具有约束的实际问题中应用时通常更有用。