IJCAI2022开会了! 微软等《领域泛化Domain Generalization》教程，阐述DG最新进展，附PPT和视频

IJCAI 大会将 7 月23日到29日在奥地利维也纳举办。IJCAI 2022 共收到 4535 篇提交，最终接收率为 15%，对比去年 13.9% 的接收率有所提高。来自微软研究院、香港城市大学和南洋理工等最新IJCAI2022《领域泛化》教程，介绍了领域泛化(DG)的最新进展，非常值得关注！

机器学习模型在很大程度上依赖于海量训练数据的可用性。对于资源匮乏、标签良好的数据难以获取的场景，进行跨领域知识转移非常重要，即从现有领域向目标领域进行知识转移。针对这一问题，迁移学习和领域适应研究取得了很大进展。除了这些进步之外，学习能够在任何新的看不见的环境中很好地推广的模型也是非常重要的。这促使研究社区开发算法，以更好地利用现有的训练领域，同时处理它们的分布转移。

本教程致力于介绍领域泛化(DG)的最新进展。与假设目标域数据可用性的迁移学习和域适应不同，DG更进一步，不需要访问目标数据。DG的目的是从一个或多个具有不同概率分布的训练域学习一个广义模型，并能很好地实现非分布泛化。潜在受众将是机器学习研究人员和行业从业者，对迁移学习、领域适应和泛化特别感兴趣。我们的教程旨在使这些技术在实际应用中更容易学习和使用。

https://dgresearch.github.io/ 视频： https://recorder-v3.slideslive.com/#/share?share=68083&s=082db7e5-96ee-4eba-a4a4-92050f2ea7f6 代码： https://github.com/jindongwang/transferlearning/tree/master/code/DeepDG

引言 Introduction and background * 相关研究 Related research areas * 领域泛化 Methodology of DG * 应用 Applications * 数据集 Datasets, benchmarks, and evaluations * 理论与未来挑战，Theory and future challenges

领域泛化问题与领域自适应（Domain Adaptation, DA）最大的不同：领域自适应在训练中，源域和目标域数据均能访问（无监督领域自适应中则只有无标记的目标域数据）；而在领域泛化问题中，我们只能访问若干个用于训练的源域数据，测试数据是不能访问的。毫无疑问，领域泛化是比领域自适应更具有挑战性和实用性的场景：毕竟我们都喜欢「一次训练、到处应用」的足够泛化的机器学习模型。

例如，在下图中，领域自适应问题假定训练集和测试集都可以在训练过程中被访问，而领域泛化问题中则只有训练集。

图1：PACS数据集中领域泛化示例。训练集数据由简笔画、卡通画、艺术画作构成的图片。领域泛化的目的是学习一个在未知目标域中表现良好的泛化模型。

领域泛化问题的示意图如下所示，其形式化定义如下：

图2：领域泛化示意图

领域泛化不仅与领域自适应问题有相似之处，其与多任务学习、迁移学习、元学习、终身学习等，都有一些类似和差异之处。我们在下表中对它们的差异进行了总结。

表1：领域泛化与其它相关学习范式对比

领域泛化方法是我们的核心。我们将已有的领域泛化方法按照数据操作、表征学习、学习策略分为三大方面，如下图所示。

图3：领域泛化方法分类

其中：

. 数据操作，指的是通过对数据的增强和变化使训练数据得到增强。这一类包括数据增强和数据生成两大部分。
. 表征学习，指的是学习领域不变特征（Domain-invariant representation learning）以使得模型对不同领域都能进行很好地适配。领域不变特征学习方面主要包括四大部分：核方法、显式特征对齐、领域对抗训练、以及不变风险最小化（Invariant Risk Minimiation, IRM）。特征解耦与领域不变特征学习的目标一致、但学习方法不一致，我们将其单独作为一大类进行介绍。
. 学习策略，指的是将机器学习中成熟的学习模式引入多领域训练中使得模型泛化性更强。这一部分主要包括基于集成学习和元学习的方法。同时，我们还会介绍其他方法，例如自监督方法在领域泛化中的应用。

在文章中，我们对每大类方法都进行了详细地介绍与总结。