传统的机器学习范式在单个任务上训练特定任务模型,已经在许多领域(如计算机视觉和自然语言处理)取得了最先进的性能。为了使机器学习模型具有更广泛的适用性,迁移学习旨在适应从源任务中学习到的知识,以提高在其他目标任务中的表现。然而,现有的迁移学习范式还有待进一步研究,因此我们对其潜在的局限性、潜在的机制以及实现更智能迁移的解决方案的认识有限。特别是,当知识从一个不太相关的来源转移时,可能会对目标性能造成负面影响,这种现象称为负转移。然而,负迁移的原因尚不明确,负迁移如何影响模型的泛化和样本效率也不清楚。在这篇论文中,我们的目标是彻底描述和解决机器学习模型中的负迁移,我们仔细研究了流行的视觉和自然语言处理设置中的负迁移,收集了其原因的见解,并提出了提高泛化和样本效率的解决方案。本文由三个部分组成。第一部分对当前迁移学习模型中的负迁移现象进行了系统的分析。我们在领域适应和多语言自然语言处理模型中正式描述了其条件,并证明任务冲突是负迁移的一个关键因素。在第二部分,我们提出了各种对齐方法,通过更好的对齐表示和梯度解决上述任务冲突,增强可转移模型的泛化。最后,在第三部分,我们探索了有效样本迁移学习算法,使用较少的训练和/或校准数据来缓解负迁移。本文的主要贡献包括对迁移学习中的负迁移问题提出了新的见解,提出了一系列实用的方法和算法,提高了模型的泛化和效率。
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“NT201” 就可以获取《【CMU博士论文】缓解负迁移提高迁移学习的泛化和效率,201页pdf》专知下载链接