摘要
分布外泛化(OOD)对人类来说是一种很自然的能力,但对机器来说是一个挑战。这是因为大多数学习算法强烈地依赖于源/目标数据的i.i.d.假设,而在实践中,由于域转移,这经常违背IID。领域泛化(DG)的目标是仅使用源数据进行模型学习,实现OOD泛化。自2011年首次引入DG以来,DG研究取得了很大进展。特别是,对这一主题的深入研究已经导致了广泛的方法论,例如,那些基于领域对齐、元学习、数据增强或集成学习的方法,这只是举几个例子;并涵盖了各种视觉应用,如物体识别、分割、动作识别和人的再识别。本文首次对近十年来计算机视觉DG的研究进展进行了综述。具体来说,我们首先通过正式定义DG,并将其与领域适应和迁移学习等其他研究领域联系起来,来覆盖背景。其次,我们对现有的方法进行了全面的回顾,并根据它们的方法和动机进行了分类。最后,我们总结了本次综述,并对未来的研究方向进行了展望和讨论。
https://www.zhuanzhi.ai/paper/c8472ef62b32f2b955bd2b239009bfc1
引言
如果一个图像分类器在照片图像上训练,它会在草图图像上工作吗?如果用城市图像训练的汽车检测器在农村环境中测试会怎样?是否有可能部署在雨天或雪天条件下使用晴天图像训练的语义分割模型?使用一名患者的心电图数据训练的健康状态分类器能否用于诊断另一名患者的健康状态?所有这些问题的答案取决于机器学习模型如何处理一个常见问题,即域转移问题。该问题是指一组训练(源)数据与一组测试(目标)数据[1],[2],[3],[4]之间的分布偏移。
大多数统计学习算法强烈依赖于过于简化的假设,即源数据和目标数据是独立的、同分布的(i.i.d),而忽略了实践中常见的分布外(OOD)场景。这意味着它们在设计时并没有考虑到域迁移问题。因此,只使用源数据训练的学习代理在OOD目标域中通常会遭受显著的性能下降。领域转移问题严重阻碍了机器学习模型的大规模部署。人们可能会好奇,最近在深度神经网络[5],[6],即所谓的深度学习[7]方面的进展是否能够缓解这个问题。[2]和[8]的研究表明,即使在数据生成过程中只有很小的变化,深度学习模型在OOD数据集上的性能也会显著下降。这突出表明,到目前为止,深度学习取得的成功很大程度上是由监督学习驱动的,这些监督学习使用的是像ImageNet[9]这样的大规模注释数据集,同样也依赖于i.i.d.假设。
关于如何处理域转移的问题在文献中已经进行了广泛的研究。绕过OOD数据问题的一个简单解决方案是从目标领域收集一些数据,以适应源领域训练的模型。事实上,这一域适应(DA)问题最近受到了广泛关注,包括[10]、[11]、[12]、[13]、[14]、[15]、[16]。然而,DA依赖于一个强大的假设,即目标数据可以用于模型调整,但在实践中并不总是成立。在许多应用中,很难获得目标数据,甚至在部署模型之前无法知道目标数据。例如,在生物医学应用中,不同患者的数据之间发生域转移,提前收集每个新患者的数据是不切实际的;在交通场景语义分割中,采集所有不同场景和所有可能天气条件下的数据是不可行的。
为了克服域漂移问题以及目标数据缺乏的问题,引入了域泛化问题[19]。具体来说,DG的目标是使用来自单个或多个相关但不同的源域的数据来学习模型,以使模型能够很好地泛化到任何OOD目标域。近年来,DG因其在实际应用中的重要性而日益受到学术界的重视。
自2011年Blanchard等人[19]首次引入以来,已经开发了许多方法来解决OOD泛化问题。这包括基于对源域分布的方法,用于域不变表示学习[27],[28],在训练期间通过元学习[29],[30],或使用图像合成[31],[32]来增强数据,仅举几个例子。从应用的角度来看,现有的DG方法已经应用于手写体数字识别[31]、[32]、物体识别[33]、[34]、语义分割[18]、[35]、人再识别[20]、[31]、人脸识别[36]、动作识别[27]、[37]等等。尽管作出了这些努力,但普遍承认DG仍然是一个公开的挑战。事实上,在无法访问目标领域数据的情况下,训练一个可以在任何不可见的目标领域有效工作的一般化模型,可以说是机器学习中最困难的问题之一。
在这篇综述论文中,我们旨在提供一个及时和全面的文献综述。综述了近十年来所介绍的主要方法和应用,重点介绍了计算机视觉领域。并对未来的发展方向进行了讨论。本文的其余部分组织如下。在§2中,我们介绍了背景知识,给出了问题的定义,并将DG与领域适应和迁移学习等几个相关研究领域进行了比较。讨论了对DG算法进行基准测试的常用数据集。在§3中,我们回顾了过去十年提出的现有DG方法,并提出了一个分类。在§4中,我们总结了这篇论文,并对未来工作的潜在研究方向进行了见解和讨论。作为这一主题的第一份综述论文,我们希望这一及时的综述能够为研究界提供清晰的思路和进一步发展的动力。