《分布外泛化评估》综述

机器学习模型虽然日益先进，但在很大程度上依赖于独立同分布（IID）假设，这一假设在实际中往往得不到满足，因为不可避免的分布偏移。这使得它们在风险敏感的应用部署中显得脆弱且不可信。这一重大问题因此催生了各种旨在开发能够进行分布外（Out-of-Distribution, OOD）泛化的算法的研究分支。尽管有这些努力，但对分布外泛化的评估却鲜有关注，这同样是一个复杂且基础的问题。其目标不仅是评估一个模型的分布外泛化能力是否强大，而且还要评估一个模型在哪些地方泛化得好或泛化得差。这需要描述模型可以有效解决的分布偏移类型，并确定给定模型的安全和风险输入区域。本文是进行分布外评估综述的第一次尝试。我们根据测试数据的可用性，将现有研究归类为三种范式：分布外性能测试、分布外性能预测和分布外内在属性表征。此外，我们还简要讨论了在预训练模型上进行分布外评估的背景。最后，我们提出了分布外评估未来研究的几个有希望的方向。

在过去的十年中，机器学习领域发生了重大进展。在数据和计算资源的指数级增长的推动下，神经网络在包括但不限于计算机视觉[1]、自然语言处理[2]和推荐系统[3]等广泛的应用领域取得了惊人的性能。尽管取得了显著进展，但我们必须承认，现有的机器学习算法和模型仍然面临着几个持续存在的挑战，这些挑战极大地削弱了它们的可靠性和信任度。这些挑战包括隐私泄露[4]、黑盒模型的弱可解释性[5]、在对抗性攻击下的脆弱性[6]，以及面对分布偏移时泛化性能的显著下降[7]。上述挑战对当前机器学习算法的广泛应用构成了实质性的障碍，特别是在高风险敏感性领域。典型例子包括法律[8]（公平和公正至关重要）、医疗保健[9]（患者福祉至上）和自动驾驶[10]（人类生命取决于这些算法的性能）。

在这些挑战中，分布偏移下的泛化问题，通常称为分布外（Out-of-Distribution, OOD）泛化，构成了一个重大的障碍。这是因为当前算法在很大程度上依赖于IID假设，即测试数据和训练数据应该是独立同分布的，但几乎到处都存在分布偏移。在真实应用中，我们几乎无法保证部署模型遇到的测试数据将符合与训练数据相同的分布。例如，推荐系统的模型在美国收集的用户数据上进行训练，但任务是扩展到其他国家的用户，这些用户的偏好分布可能有很大差异。同样，主要由真实照片组成的数据集上训练的视觉识别模型面临着识别各种风格图像的艰巨任务，如艺术绘画，这代表了与其训练数据的显著分布偏移[11]。此外，训练数据中通常存在人口群体的不平衡，特别是在性别或种族方面。在这种情况下，当训练数据中的少数群体在测试数据中占主导地位时，模型的泛化性能可能会轻易下降[12]。所有这些分布偏移的实例都导致了机器学习算法的性能下降。尽管自更早以来已经开发了领域适应技术[13]、[14]、[15]来解决类似问题，但在野外环境中，分布偏移无处不在且未知，我们不太可能事先有权访问测试数据。

一种直接的方法涉及开发算法，以增强模型在完全未知的测试数据下的OOD泛化能力，正如沈等人[7]所强调的。近年来，几个研究分支致力于这一目标。领域泛化（DG）[16]、[17]、[18]利用多个训练领域使模型能够泛化到以前未见过的测试领域，主要在计算机视觉领域。分布鲁棒优化（DRO）及其变体[19]、[20]、[21]试图解决最坏情况下的分布。不变学习[22]、[23]、[24]寻求捕获训练数据中存在的潜在异质性和不变性。稳定学习[25]、[26]、[27]方法借鉴了因果推断的思想，通过样本重新加权来去相关变量。这些不同的分支共同贡献于提高OOD泛化的总体目标，每个分支都提供了不可忽视的独特见解和进步。

另一种使机器学习模型适用于高风险领域的途径是评估，即评估它们在可能的OOD场景下的泛化能力。与OOD泛化算法的迅速增长相比，评估方面受到的关注要少得多。评估在机器学习的各个领域都是必不可少的。适当的评估协议和方法有潜力推动一个领域的进步，就像ImageNet[28]在计算机视觉领域所做的那样。在OOD泛化的背景下，评估扮演着更为基础的角色。一方面，与ID（In-Distribution）评估相比，OOD评估通常更加复杂。例如，给定一个单一任务的数据集，如图像识别，一种自然的方法是将其随机分割成训练集和测试集，以测试准确率作为ID泛化的评估指标。但是，面对同一个数据集，我们如何分割数据集以生成所需的分布偏移并描述这种偏移？这种分布偏移是否可解[29]？在OOD的背景下，这变成了一个更复杂的过程。另一方面，值得注意的是，目前的OOD泛化算法没有一个能在各种OOD设置中取得普遍且巨大的改进，并像ResNet[1]对计算机视觉社区所做的，或Transformer[30]对自然语言处理社区所做的那样，引爆OOD社区。事实上，鉴于存在多种类型的分布偏移需要解决[31]，而且很难一劳永逸地解决它们，因此开发一个在OOD泛化方面一致超过其他模型大幅度的模型是相当困难的。在这种情况下，评估模型在哪些方面表现出色或失败更加实用和有用。具体而言，我们的目标转向识别存在哪些类型的分布偏移[32]，评估模型处理它们的能力，并寻找模型表现出色或糟糕的安全和风险输入区域[33]。通过这种方式，我们可以充分利用现有的训练模型，这些模型不能任意泛化，但适用于某些场景。

此外，与直接开发针对OOD泛化的模型相比，OOD评估还提供了额外的好处。如今，从头开始训练一个深度模型，甚至仅仅是对现有模型进行微调，都可能是耗时且昂贵的[34]。在像罕见疾病[35]这样的数据稀缺场景中，可能根本没有足够的数据进行训练。在这种情况下，尽管无法进一步改进它，我们仍可以借助适当的OOD评估方法决定是否以及在哪里使用这个模型，或从模型池中选择合适的模型。此外，OOD评估也更具灵活性。设计的评估指标不必是可优化的，它可以无缝地融入模型选择过程中，这是OOD泛化的一个关键但鲜有研究的方面[18]、[36]。它还可以与非算法操作结合使用，如添加额外数据或特征[33]。

因此，我们认为OOD评估是OOD泛化的一个基本方向。目标不仅是确定一个模型是否具有良好的OOD泛化能力，而且还要识别它在哪里可以表现良好，包括分布偏移的类型和程度，以及模型保持其能力的相应输入区域。在本文中，我们提供了当前OOD评估协议、指标和方法的系统性综述，涵盖了OOD评估的多方面目标。据我们所知，我们是第一个全面审视这一领域的人。之前的综述主要集中在OOD泛化本身[7]，或是机器学习模型的一般评估[34]。另一项综述也回顾了OOD模型的评估，但其范围仅限于NLP领域[37]。

本文的其余部分安排如下。在第2节中，我们介绍了问题设定和OOD评估范式的分类。在第3节、第4节、第5节中，我们主要根据对OOD测试数据的依赖性描述了OOD评估范式的每个类别。在第6节中，我们讨论了预训练模型范围内的OOD评估，包括大型语言模型（LLMs）。最后，在第7节中，我们总结了这篇论文，并提出了一些在未来研究努力中值得进一步探索的方向。

分布外性能测试

设计关于标记数据集的分布外性能测试程序绝非一个琐碎的问题。对于ID泛化任务，给定一个标记数据集，直接随机将其分割成训练集和测试集已经足够合理。但对于分布外泛化，许多问题需要仔细考虑。如果没有给定的数据集，我们应该如何从头开始生成一个标记的合成数据集来模拟特定类型的分布偏移？如果有给定的数据集，我们应该如何人为地生成分布偏移，或根据现有的分布偏移将数据集划分为多个环境？在获得数据集和环境划分后，我们如何减少由于预训练[36]和神谕模型选择[18]导致的测试数据信息泄露的潜在可能性？此外，一旦我们测试了模型在标记数据集上的性能，我们应该如何有效地分析这一性能？在分布外性能测试方面需要解决许多问题。在本节中，我们将介绍当前的分布外数据集或基准以及它们的基本设计原则，以及分析性能和分布偏移的现有方法。

分布外性能预测

与分布外性能测试不同，后者的测试数据是完全可访问的，这一领域代表了另一个研究维度，旨在预测在提供的未标记分布外测试数据上的性能。我们可以用医学图像智能系统的例子来说明这一点。这些系统作为辅助工具帮助医生进行诊断。假设部署在这些系统上的模型是在北京和上海的患者数据上训练的。现在我们想探索在广州医院部署这些模型和系统的可能性。因此，我们需要预测这些模型面对新场景下从患者收集的未标记图像数据时的分布外性能。当前的工作尝试从两个角度应对这一挑战。一些研究直接关注模型输出在应用到测试数据时的属性，而不使用训练数据。相反，其他工作利用训练数据的分布差异或模型一致性。前者通常更加方便和灵活，然而后者通常能够提供更优的预测，因为它们利用了更多的信息。

结论与未来方向

科学合理的分布外评估范式，即对分布外泛化的评估，不仅对于推动新的分布外泛化算法的发展具有重要意义，而且对于现有模型的更实用和灵活的应用也极为关键。在本文中，我们对问题设定、三个主要类别的分布外评估方法进行了系统性的综述，并简要讨论了在预训练模型的背景下的应用。尽管我们已经讨论了每个特定分布外评估类别的缺点和未来方向，但基于我们目前对分布外评估的认识和反思，我们在这里列举了几个更具普遍性但在当前文献中相对缺乏的有价值的潜在未来方向。

分布外评估超越性能：大多数现有的分布外评估范式主要围绕模型的性能。它们旨在评估模型的分布外性能是否足够好，或者在模型之间进行比较。然而，如第一节所述，分布外评估的目标不仅仅是“是否”，还包括“在哪里”。考虑到各种类型的分布偏移，寻找分布外泛化的最终解决方案是困难的，因此，在部署机器学习模型时，识别特定模型的安全或风险区域，以及验证算法能够有效应对的分布偏移类型更为实用。上文提到的一些工作[32]、[33]、[95]、[96]、[118]是朝着这一目标的初步努力。值得注意的是，它们都是相对较新的工作，这表明可能存在一个朝向超越性能评估的趋势。

分布外训练数据评估：虽然全训练模型是模型结构、算法和训练数据的综合结果，但当前的分布外评估范式大多评估不同模型结构或不同算法之间的模型，很少跨不同种类的训练数据进行评估，也很少分析有利于分布外泛化的训练数据属性。在人们关注开发新模型结构和新算法的时代，训练数据容易被忽视，尽管它对模型性能有着关键影响[142]、[143]、[144]。只有少数研究从训练数据异质性的角度探讨这个问题[122]、[145]。区分分布外泛化与ID泛化的性能：现有的分布外评估方法依赖于绝对性能的直接比较。然而，我们对这些比较是否准确衡量模型的真实分布外泛化能力提出了疑问。存在一种可能性，性能提升归因于ID泛化能力的改进，而非分布外泛化能力。例如，对同一数据集进行足够的训练，更大的网络往往在ID和分布外测试数据上都能达到更高的性能。ID与分布外之间的性能差距，虽然不一定是适当的评估指标，可能保持不变甚至变大。当然，增加训练数据的大小和模型容量通常有助于提高ID性能，从而提高分布外性能，但这并不意味着这是解决分布外泛化问题的答案，考虑到大型模型也会遭遇分布偏移时的严重性能下降[81]、[82]，以及相关的偏见和公平性问题[34]、[140]。因此，对于分布外泛化的最终解决方案，我们建议在评估模型的分布外泛化能力时，应该区分分布外性能和ID性能。简单使用性能差距可能不适合，因为强正则化技巧，如使用大的权重衰减，可能会降低ID性能以减少性能差距。已有一些工作讨论了分布外和ID性能之间的关系[82]、[111]、[146]、[147]、[148]，期待对这方面进行更深入的研究。

成为VIP会员查看完整内容