深度学习技术在取得优秀性能的同时,往往需要依赖大规模的标注数据。然而,对于所有感兴趣的目标任务都进行大规模的数据收集与标注是难以实现的。一种解决方案是将已有的源领域数据中的知识迁移到目标领域,以促进对目标领域任务的学习。Domain Generalization(DG)是其中的一个重要问题,DG的目的是从一个或多个源领域中学习模型,使之能够直接应用到未见过的目标领域上,并具有较强的泛化性能。
标准的DG问题假设所有源领域与目标领域都具有完全相同的标签集,然而这一假设在实际情况中很可能不成立。由于DG常常需要有多个源领域,而每一个源领域可能都是从不同渠道收集而来,对所有源领域具有完全相同标签集的假设会为源领域数据的收集带来困难。由于目标领域数据在训练阶段是不可见的,因此它与各源领域标签集之间的关系也应该是开放的。据此,我们放宽标准DG问题中所有源领域与目标领域都具有完全相同的标签集的假设,提出Open Domain Generalization(OpenDG) 问题。
图1 Open Domain Generalization问题示意图 该问题中各源领域可能拥有不同的标签集,目标领域中包含了某些源领域中出现过的类别,也可能存在源领域中没有出现过的类别。学习的目的是从这些开放场景下的源领域上得到泛化性能较强的模型,使之能够在推理过程中直接对目标领域数据进行正确分类。若目标领域样本属于源领域标签集中的类别,则模型应将其分为源领域中的具体的那一类;若目标领域样本的类别未在源领域中出现,则应将其分为“未知类”。