从NeurIPS 2022看域泛化：大规模实验分析和模型平均

2022 年 10 月 23 日 PaperWeekly

©PaperWeekly 原创 · 作者 | 张一帆

学校 | 中科院自动化所博士生

研究方向 | 计算机视觉

Domain generalization（DG：域泛化）一直以来都是各大顶会的热门研究方向。DA 假设本文有多个个带标签的训练集（源域），这时候我们想让模型在另一个数据集上同样表现很好（目标域），但是在训练过程中根本不知道目标域是什么，这个时候如何提升模型泛化性呢？核心在于如何利用多个源域带来的丰富信息。本文对 NeurIPS 2022 域泛化相关的部分文章进行了总结，主要集中在实验性的发现以及一些新的观点。

Assaying Out-Of-Distribution

论文标题：

Assaying Out-Of-Distribution Generalization in Transfer Learning

论文链接：

http://arxiv.org/abs/2207.09239

Out-of-distribution 这个概念包含了很多的目标，比如模型校准，对抗性鲁棒性，algorithmic corruptions，模型特征对于分布变化的不变性。尽管有着相同的理想目标，但这些方法从未在相同的实验条件下对真实数据进行过测试。本文采集了 172 个涵盖上述所有目标的数据集，微调了 31k 个网络（包含九种网络架构）来对上述所有目标进行统一的度量，以全面的对模型鲁棒性的定义提出新的见解。本文的主要结论包含如下：

1. The many facets of out-of-distribution generalizatio. ID 和 OOD 精度仅在特定任务上呈线性趋势。如上图所示，本文观察到另外三个设置：不规范（垂直线）、无泛化（水平线）和随机泛化（大点云）。本文没有观察到准确性和鲁棒性之间的 trade-off，即更精确的模型会过度拟合不泛化的“虚假特征”。鲁棒性方法必须在许多不同的设置中进行测试。目前，似乎没有一种方法在所有的 OOD 设置中都是优越的。

2. Overall classification error is the best general predictor of OOD robustness? 这里回答了本文是否能通过使用一个代理度量来预测模型的鲁棒性。本文发现准确性是 OOD 鲁棒性最强的预测度量，在分布中泛化良好的模型往往也更鲁棒。在额外的 OOD 数据评估的准确性是一个更有力的预测指标。

3. What can we learn from other metrics beyond accuracy? 这里测试了其他的一些度量指标与模型鲁棒性的关系，比如 Calibration，adversarial robustness，Corruptions 等。这些指标只能为 OOD 鲁棒性添加少量的附加信息。Calibration 似乎可以预测 ID 精度，但不能转移到新的分布，而对抗鲁棒性似乎不能反映对自然分布偏移的鲁棒性。Corruptions 在衡量自然分布变化的鲁棒性方面用处不大，不应被用作真正的 hold - OOD 数据的替代品。ImageNet 上游性能提供了下游健壮性的信息。然而，对 ImageNet 常用移位的鲁棒性并不意味着下游鲁棒性高于上游的清晰精度。

4. The effect of augmentations, fine-tuning strategy and few-shot learning 数据增强可以提高对各种分布偏移（人为和对抗性腐蚀，OOD 泛化）的准确性和鲁棒性，特别是在数据稀缺的情况下。然而，它们似乎会损害模型校准。

5. The effect of the model architecture 上表表明 Vision Transformer 的扩展在迁移学习和微调场景中提高了泛化性能，同时需要更少的数据。此外，本文注意到，OOD 分类误差平均最低的模型并没有显示出最低的性能差距，即，当 ID 和 OOD 精度的性能提高时，ID 数据和 OOD 数据的性能不一定更紧密地一致。鉴于之前的工作认为，domain generalization 的方法对面向对象的鲁棒性影响甚微，本文鼓励对鲁棒架构进行更多的研究。

Future works

根据这些结果，本文提出了三个需要进一步研究的关键领域。

1. 在评估和提高鲁棒性方面，创建人工干涉分布是手工制作的增强和破坏分布的一种有吸引力的替代方法。高保真生成模型可以用来识别模型不健壮的特定变化轴。虽然这已经在带有标记敏感属性的公平性背景下进行了研究，但发现这种变异因素仍然是一项未解决的任务，与解纠缠和因果表征学习有关。

2. 虽然对 OOD 性能的细粒度研究可以揭示神经网络的特定泛化特性，但在解释这些特性时应谨慎。特别是，来自对抗构造的测试集的结论不应该推广到更广泛的设置。

3. 还需要更多的工作来理解体系结构中的归纳偏差是否是解决一般性分布变化的有意义的工具。虽然本文确实观察到一些特定于体系结构的性能差异，但在训练前的许多混杂因素使本文很难对这个问题得出任何明确的结论。

Effective Invariance

论文标题：

On the Strong Correlation Between Model Invariance and Generalization

论文链接：

https://arxiv.org/abs/2207.07065

学习对于环境不变的特征以得到更好的泛化结果，一直以来都是 Domain generalization/adaptation 的重要研究课题，因此了解这泛化性和不变性两个属性之间的关系将有利于动态环境下的模型决策分析。现有的研究表明了一种正向的关系：泛化性良好的模型应该不受某些视觉因素的影响。

然而，目前 对泛化与不变性之间的关系缺乏定量和系统的分析 。现有的大部分作品都是定性的。例如，在模型中加入旋转不变性可以提高模型的分布内（ID）分类精度；位移不变的模型对扰动具有鲁棒性。此外，现有的研究仅限于少数分布内数据集和分类器体系结构。因此，在许多其他场景中，如分布外泛化和大规模测试数据，以及其他类型的模型上，这二者的关系仍然是未知的。

常见刻画 invariance 的方法存在的问题 一种常见的策略是直接使用两个预测的 Softmax 向量之间的距离作为不变性度量：较低的距离意味着较高的不变性，反之亦然。类似度量的例子有 Jensen-Shannon 散度（JS）和距离和 Kullback-Leibler 散度。

然而，它们只是利用两个 Softmax 向量之间的全局相似性，而没有明确考虑预测类的一致性和置信度。我们以 JS 的分歧为例来说明这个缺点，如上图所示。在（a）和（b）预测类一致的情况下，JS 认为（b）中的分类器 f 较高，忽略了（b）的低置信度。在（d）预测类不同的情况下，JS 仍然给出高不变量（JS 得分小），表明错误明显。

本文首先提出了一个新的刻画不变性的 metric，即 effective invariance（EI），这个 metric 相比于之前的方法额外考虑了模型预测的置信度，直观来看，对于测试图像和经过变换的对应图像，如果模型预测的类相同，且置信度高，则 EI 值或不变性强度高。否则，如果模型做出不同的类预测或置信度较低，则 EI 得分较低。

公式化的定义如下所示，给定为一张 image和其经过某种转换得到的 image，分别是二者的预测置信度，那么 EI 定义为如下形式：

其次，本文测试了 8 个具有不同类型分布变化的数据集，150 个模型，涵盖了从传统卷积网络到 vision transformer 的多种架构。最终得到了以下结论：

1. 对于各种模型，它们在分布内和分布外数据集上的准确性和不变性之间存在很强的相关性。这个发现对于无监督模型选择是有用的，因为 EI 不需要 ground truth。具体而言，以上 12 张图显示了部分结果，其中展示了模型的精度（%）和旋转不变性（EI），灰度不变性（EI），之间的相关性。每个图都是从不同的 ImageNet 测试集上的测试中获得的。

在每张图中，每个点表示一个模型，直线通过鲁棒线性拟合。每个图中的阴影区域是线性拟合的 95% 置信区域。可以清楚地观察到一个很强的线性关系，这里的 r 是 pearson 相关系数，ρ 是 spearman 相关系数。

2. 在各种 out-of-distribution 数据集上，模型的准确性和 EI 评分也有很强的相关性。这一观察结果可用于预测非分布数据集的模型精度，而无需访问 ground truth。如上图所示，在各种 OOD 测试集上，模型的不变性和准确性之间的相关性也可以很明显的观测到。

这里的每张图中，一个数据点对应于来自 ImageNet-C 的一个测试集，测试了旋转不变性（上）和灰度不变性（下）。每一行中分别使用 vitv-base-patch16、ResNet-152 和 DenseNet-121。在所有的图中，我们观察到不变性和准确性之间存在很强的相关（皮尔逊相关r和斯皮尔曼秩相关 ρ 均大于 0.930）。

3. 与数据增强相比，使用更多数据的训练更有效地提高了不变性和泛化能力。如上图所示，数据增强带来的 benefit 使用没有使用更大量的数据来的好。

Ensemble of Averages

论文标题：

Ensemble of Averages: Improving Model Selection and Boosting Performance in Domain Generalization

论文链接：

https://arxiv.org/abs/2110.10832

代码链接：

https://github.com/salesforce/ensemble-of-averages

Model selection 对于 Domain generalization 任务的的可靠性很重要，但对它的研究还不多。正如在下图中所演示的，在训练过程中，域外（OOD）性能沿着模型的优化轨迹变化很大，即使域内（IID）性能没有变化。

因此，这种不稳定性损害了模型选择的可靠性，并可能在测试域数据不可用的现实设置中成为一个问题，因为它导致域内验证精度和域外测试精度之间的秩相关性很弱。而简单的模型平均就可以降低域外性能的不稳定性，使测试曲线与验证曲线具有更好的相关性，使得在优化过程中使用域内验证集进行模型选择更加可靠。

▲ 模型平均提高了域外性能的稳定性。左：使用 ERM 训练模型时的域内验证精度和域外测试精度。右：与左相同，不同的是，验证和测试预测是使用被优化模型的简单移动平均，沿着优化路径进行的。详细信息：这些图用于 TerraIncognita 数据集，域 L38 用作测试域，其他域用作训练/验证数据，以及 ResNet-50。实线表示精度，虚线表示训练损失，最上方的虚线表示训练和所有运行期间达到的最佳精度。每种颜色表示使用不同随机种子和训练/验证分割的不同运行结果。

下图展示了在使用 model ensembling 的时候，model averaging 也会带来稳定性的大幅度提升。

▲ 移动平均集合（EoA）（右）比单一模型（左）具有更好的域外测试性能稳定性，域内验证精度。每个集成都有 6 个不同的模型，它们来自独立实验，具有不同的随机种子、超参数和训练/验证分割。

simple moving average (SMA) 具体来讲，给定一个 averaging 的开始迭代时间，在迭代次数时的模型更新如下：

其中是没有经过 average 的 model。在迭代时，如果我们需要计算验证性能，我们使用，而不是。正如上文所描述的，这样做的好处是，当使用进行预测时，域内验证精度和域外测试精度之间的相关性显著更好。这使得模型选择对于领域泛化来说更加可靠。最后，模型选择选择进行测试集预测，这里的即在验证集上效果最好的模型。

超参数调整：虽然模型平均技术上需要两个超参数——平均频率和开始迭代，但通过实证分析，将频率设置为 1，并将开始迭代设置为接近 0，在多个数据集和架构上都能很好地工作，因此实际中基本不引入额外的超参数。

Ensemble of Averages (EoA) 指使用多个独立训练的模型（例如：具有不同的超参数和种子）。当这些模型中的每一个都是从其相应运行的移动平均模型时，我们将这个集合简称为平均模型的集合（EoA）。与对传统系综进行预测相同，EoA 对输入 x 预测的 y 类由以下公式给出：

下图展示了加入 ensemble 之后，各个数据集性能提升的情况，其中显示了 i）平均模型的集合（左图实线）始终优于未平均的模型集合（左图虚线）；ii）平均集合持续地提高平均模型的性能（右图中大小为 1 的集合）。

文中的方法在各个 domain generalization 数据集中的具体效果如下所示：

由上表所示，SWAD 和 SMA 之间的比较表明 SWAD 略好。有趣的是，传统集成和 SMA 的性能相似（分别为 66.8% 和66.5%）。最后，EoA 优于所有现有结果：比 ERM 高出 4%，SWAD（之前的 SOTA）高出 1:1%。在大规模的预训练模型上，提升更为明显一些。

DiWA

论文标题：

Diverse Weight Averaging for Out-of-Distribution Generalization

论文链接：

https://arxiv.org/abs/2205.09739

目前，DomainBed 上最先进的策略是沿着训练轨迹平均获得的权重 WA（Weight averaging [1] ）。SWAD [2] 认为这种加权平均（WA）在 OOD 中是成功的，因为它找到了更平坦的损失情况的解决方案。本文展示了这种基于损失空间平坦性分析的局限性，并提供了一个新的解释来回答为什么 WA 在 OOD 中能成功。它基于 WA 与集成学习的相似性，对来自各种模型的预测进行平均。

基于此，本文提出了 WA 期望误差的偏差-方差-协方差-局部分解。它包含四个术语：首先，本文显示的偏差在标签后验分布的位移下增加（即相关位移 correlation shift）；其次，本文所展示的方差在输入边际分布的偏移（即多样性偏移 diversity shift）下增加；三是模型多样化时协方差减小；最后，给出了平均模型权重的局部性条件。

Weight averaging 本文重点研究了结合个不同模型权重带来的好处。

虽然已经有工作 SWAD [2] 显示了 weight 在 OOD 场景下取得了巨大的成功，并提供了理论上的分析，即 WA 使损失空间趋于平缓。然而，他的理论解释在近期受到了质疑，因为如果我们直接去平滑损失空间，最终得到的结果并不如 WA 这么好。本文在 WA 的基础上提出了一个新的方法，即多元权重平均（DiWA）方法试图通过减少模型间的协方差来减少 OOD 期望误差。

具体来说，DiWA 的权重是从个不同的运行中获得的，具有不同的学习过程：这些有不同的超参数（学习率、权重衰减）、批顺序、数据增强（例如，随机裁剪、水平翻转、颜色抖动、灰度缩放）、随机噪声和训练步骤数。因此，当训练参数差距较大时，相应的模型更加多样化。

本文的最终结果如下所示，其中 random，LP 是两种不同的参数初始化策略。

·1

发现&结论

这四篇论文主要集中在大规模的实验验证去发现新的现象，以及对多个模型权重的充分利用。总的来看，目前 Domain generalization 问题还有很大的发展空间，loss design 类的方法很难去得到一个压倒性的结果，反而新型的框架，更大的预训练模型影响更大。除此之外，基于模型平均与 ensembling 的方法也越来越多，但是这些方法看起来大部分泛化能力都是 ensembling 带来的，文中提出的技巧能带来的提升都很有限。