所有著名的机器学习算法包括监督学习和半监督学习,只有在一个共同的假设下才能很好地有效: 训练和测试数据遵循相同的分布。当分布发生变化时,大多数统计模型必须从新收集的数据中重新构建,对于某些应用程序,这些数据可能是昂贵的或不可能获得的。因此,有必要开发一种方法,通过利用相关领域的可用数据并在类似领域进一步使用它来减少获取新标记样本的需要和工作量。这催生了一种新的机器学习框架,称为“迁移学习”(transfer learning):这是一种学习环境,其灵感来自于人类在不同任务间推断知识以提高学习效率的能力。尽管有大量不同的迁移学习场景,本综述的主要目的是提供一个特定的、可以说是最流行的迁移学习子领域——领域自适应——最新理论结果的概述。在这个子领域中,假设在训练和测试数据之间的数据分布是变化的,而学习任务是不变的。我们提供了一个关于领域适应问题的现有结果的最新描述,它涵盖了基于不同统计学习框架的学习范围。
概述
迁移学习背后的思想是由人类的学习能力所激发的,这种学习能力是在很少或没有监督的情况下根据先前获得的知识进行的。毫不奇怪,这个概念并没有在机器学习领域中被发明出来,因为“学习的转移”这个概念在第一台计算机出现之前就已经被使用了,并且在20世纪早期的心理学领域的论文中也有出现。从统计的角度来看,这种学习场景不同于监督学习,因为前者不假设训练和测试数据必须来自相同的概率分布。有人认为,这种假设在实践中往往过于严格,因为在许多现实世界的应用中,假设是在不同的环境中学习和部署的,并显示出一个重要的转变。在迁移移学习中经常使用的一个典型例子是考虑一个垃圾邮件过滤任务,其中垃圾邮件过滤器是使用给定用户的公司邮箱的任意分类算法来学习的。在这种情况下,由算法分析的绝大多数电子邮件很可能是专业性质的,其中很少涉及被考虑的人的私人生活。再进一步设想这样一种情况:同一用户在个人计算机上安装了邮箱软件,并导入其公司邮箱的设置,希望它也能在其上正常工作。然而,这是不可能的,因为许多个人电子邮件可能看起来像垃圾邮件的算法学习纯粹的专业通信,由于他们的内容和附件文件的差异,以及电子邮件地址的不一致性。另一个说明性的例子是海洋学研究中的物种分类,在这种分类中,人们依靠对某一海域的视频覆盖来识别海洋栖息地的物种。例如,在地中海和印度洋,可以在录像中找到的鱼类很可能属于同一科,尽管由于不同的气候和进化背景,它们的实际外观可能非常不同。在这种情况下,如果没有专家的专门调整,在地中海视频覆盖上训练的学习算法很可能无法提供印度洋物种的正确分类。
在这种应用中,我们可能希望找到一种学习范式,这种学习范式能够保持对不断变化的环境的鲁棒性,并通过类比和利用最初学习领域的知识来适应手边的新问题。为了解决这个问题,对新的算法的探索,能够在一个训练样本上学习,然后在一个测试样本上有一个良好的表现,来自一个不同但相关的概率分布,从而产生了一个新的学习范式,称为迁移学习。
表1: 本综述中关于领域适应的学习范围的贡献总结。(任务)是指所考虑的学习问题;(框架)指定分析中使用的统计学习框架;(散度)是用来比较源分布和目标分布的度量;(Link)表示源误差与散度项之间的依赖关系;(Non-estim)表示在界限中存在一个不可估计的项。
在本篇综述中,我们对领域自适应问题的现有理论进行了概述,这种学习设置扩展了传统的学习范式,使模型可以在来自不同但相关的概率分布的样本上学习和部署。所引用的理论结果通常采取一种学习边界的形式,其目标是将一个模型在训练(也称为源)域上的错误与测试(也称为目标)域上的错误联系起来。为此,我们注意到所提供的结果是非常直观的,因为它们明确地引入了上述两个错误之间的关系与它们的数据生成概率分布和相应的标记函数的相似性的依赖关系。因此,这种源域和目标域之间的双向关联,通过比较两个域的边缘分布和样本的可能标记来描述这两个域的无监督邻近性,通过寻找一个相对于它们具有低误差的良好模型。在这一主题的大多数已发表的结果中,以这样或那样的方式保留了这种普遍的权衡,因此可以被视为现代领域适应理论的基石。