释放多任务学习的力量：涵盖传统、深度和预训练基础模型时代的综述

多任务学习（MTL）是一种学习范式，有效地利用任务特定和共享信息同时解决多个相关任务。与单任务学习（STL）相比，MTL提供了一系列优势，增强了训练过程和推理效率。MTL的主要优点包括流线型模型架构、性能提升和跨领域泛化能力。在过去二十年中，MTL已广泛被认为是在包括计算机视觉、自然语言处理、推荐系统、疾病预测与诊断及机器人技术等多个领域中，一种灵活有效的方法。本综述全面概述了MTL的演变，涵盖了从传统方法到深度学习乃至最新趋势的预训练基础模型的技术层面。我们的综述有条不紊地将MTL技术分类为五个关键领域：正则化、关系学习、特征传播、优化和预训练。这种分类不仅按时间顺序概述了MTL的发展，还深入探讨了每个类别内的各种专门策略。此外，综述揭示了MTL如何从处理固定任务集合转变为不受任务或模态限制的更灵活方法。它探讨了任务可提示和任务不可知训练的概念，以及零样本学习的能力，这些都释放了这一历史上备受推崇的学习范式的未开发潜力。总的来说，我们希望这份综述能为研究社区提供自1997年以来MTL进展的全面概览，直至2023年。我们讨论了当前挑战，并展望未来的可能性，从广泛的角度揭示了MTL研究的机遇和潜在途径。这个项目可以在 https://github.com/junfish/AwesomeMultitask-Learning 公开获取。

在介绍中，我们希望在回顾多任务学习（MTL）的方法论之前回答以下五个研究问题（RQs）： * RQ1：多任务学习的概念和定义是什么？（见§ 1.1） * RQ2：多任务学习如何从其他学习范式中区分出来？（见§ 1.2） * RQ3：在学习场景中使用多任务学习的动机是什么？（见§ 1.3） * RQ4：多任务学习的有效性依赖于哪些基本原理？（见§ 1.4） * RQ5：我们的综述与以往的研究有何不同？（见§ 1.5）

在§ 1.1中，我们逐步介绍多任务学习（MTL），从广义上开始，最终给出一个正式定义。随后，§ 1.2探讨了MTL在机器学习（ML）领域中的定位，与转移学习（TL）、少样本学习（FSL）、终身学习、多视图学习（MVL）等相关范式进行比较。§ 1.3深入探讨了采用MTL的动机，从明显和微妙的角度提供见解，同时也讨论了MTL如何惠及相关任务。在§ 1.4中，我们更深入地探讨了支撑MTL的基本机制和理论，具体包括：1) 正则化，2) 归纳偏见，以及3) 特征共享，为理解其基本原理提供了解释。最后，§ 1.5回顾了关于MTL的现有综述，强调我们综述的独特贡献，并为本文的其余部分制定了一个结构化的路线图。我们综述的结构在图2中描述。在深入本综述之前，读者可以快速参考表1，了解与数据集、机构和新提出的方法无关的首字母缩写词列表，而数学符号概述则提供在表3和表6中。

在过去几十年中，MTL的日益流行在图3中得到了明显体现，该图显示了与关键词搜索“allintitle: 'multitask learning' OR 'multi-task learning'”相关的论文数量的趋势，数据来源于谷歌学术。正如其名称所示，MTL是ML的一个子领域，在此多个任务被共同学习。通过这种方式，我们希望利用这些相关任务之间的有用信息，并打破传统的各任务独立执行的做法。在单任务学习（STL）中，手头任务的特定数据是支撑学习者的唯一来源。然而，MTL可以方便地转移从其他任务学到的额外知识。MTL的本质在于通过结合数据资源和共享知识，利用任务之间的共识和补充信息。这揭示了一种更好的学习范式，可以减少内存负担和数据消耗，并提高训练速度和测试性能。例如，同时学习图像中的单眼深度估计（测量到相机的距离）（Eigen等，2014年）和语义分割（为每个像素值分配一个类别标签）（傅克胜和梅玉，1981年）是有益的，因为这两个任务都需要感知有意义的对象。随着实验和理论分析持续验证其有前途的结果，MTL已变得越来越普遍。例如，使用面部ID解锁iPhone是一个典型但不易察觉的MTL应用，涉及同时定位用户的面部和识别用户。通常，当我们在优化阶段尝试处理两个或更多的目标时，就会发生多任务处理。因此，即使在执行带有正则化的STL时，MTL也无处不在于ML中。这可以理解为有一个目标任务和一个额外的人为任务，例如通过ℓ2正则化器学习受限模型或通过ℓ1正则化器学习简约模型。这些假设偏好可以作为归纳偏见，增强归纳学习者（Caruna, 1993）。在MTL的早期探索中（R. Caruana, 1997），所涉及任务提供的额外信息被视为其他任务的特定领域归纳偏见。由于从其他任务收集训练信号比从模型设计或人类专业知识获得归纳偏见更实际，因此我们可以通过这种MTL范式增强任何ML模型。 动机和好处： MTL可以从以下五个具有不同好处的角度受到激励：认知/社会心理学、数据增强、学习效率、现实世界场景和学习理论。

从心理学角度看，人类天生具有适应新问题和环境的灵活性，因为人类学习过程可以将一种经验中的知识转移到另一种经验中（Council等，2000）。因此，MTL的灵感来自于模拟这一过程，赋予模型多任务处理的潜力。巧合的是，这种知识转移也发生在组织之间（Argote等，2000）。已证明，具有更有效知识转移的组织更具生产力，并且更有可能生存下来。这些在其他领域的转移或互惠的先前成功鼓励了ML中任务的联合学习（R. Caruana, 1997）。

在大数据时代之前，现实世界的问题通常由小型但高维的数据集表示（样本数 < 特征数）。这种数据瓶颈迫使早期方法学习一个稀疏结构的模型，总是导致对数据不足问题的简约解决方案。然而，MTL的出现是为了聚合来自不同领域或任务的标记数据，以扩大训练数据集，对抗过拟合。

追求效率和效果也是动机之一。MTL可以将来自不同来源的数据聚合在一起，多任务的联合训练过程可以节省计算和存储资源。此外，性能提升的潜力使其在研究社区中广受欢迎。简而言之，可以从多源数据中学习任何任务的通用表征，并在学习成本和性能方面惠及所有任务。

由于大多数现实世界问题自然是多模态或多任务的，MTL被提出来补救STL只单独模拟部分问题而达到的次优。例如，预测阿尔茨海默病（AD）生物标志物对轻度认知障碍（MCI）风险和临床诊断的进展同时基于多模态数据，如计算机断层扫描（CT）、磁共振成像（MRI）和正电子发射断层扫描（PET）（H. Chen等，2022；Jie等，2015；Kwak等，2018）。自动驾驶是另一个例子，也涉及多个子任务来计算最终预测（Chowdhuri等，2019；Z. Yang等，2018），包括识别周围物体、根据交通条件调整最快路线、效率与安全之间的平衡等。

从学习理论的角度看，已证明无偏学习是不可能的（Mitchell，1980），因此我们可以通过使用相关任务的额外训练信号来激发MTL。通常，MTL是通过多任务协助实现归纳转移的方式之一，它可以提高学习速度和泛化能力。具体来说，在多任务联合训练过程中，某些任务可以从其他相关任务获得归纳偏见，这些较强的归纳偏见（与通用正则化器相比，例如ℓ2）能够实现知识转移，并在固定训练数据集上产生更多的泛化能力。换句话说，与任务相关的偏见使学习者更倾向于可以解释多个任务的假设，并防止特定任务过拟合。

机制与解释。在本节中，我们将探讨三个关键机制——正则化、归纳偏见和特征共享——这些机制揭示了MTL如何操作以在多个任务中实现性能增强。

正则化。在MTL中，总损失函数是针对每个任务的多个损失项的组合。相关任务充当正则化器的角色，增强了跨任务的泛化能力。MTL模型的假设空间因同时处理多个任务而被限制在更狭窄的范围内。因此，对假设空间这种约束减少了模型复杂性，减轻了过拟合的风险。

归纳偏见。共训练任务的训练信号由于它们共享的领域信息而充当相互归纳偏见。这些偏见在训练期间促进跨任务知识转移，引导模型偏好与任务相关的概念而不是任务本身。因此，这扩展了模型的视野，超越单一任务，增强了其对未见分布（OOD）数据的泛化能力。

特征共享。MTL可以在相关任务之间实现特征共享。一种方法涉及选择重叠特征并最大化其在所有任务中的利用率。这被称为“窃听”（Ruder，2017），考虑到某些特征可能对特定任务不可用，但可以由相关任务学习的特征替代。另一种方式是将不同任务提取的所有特征合并在一起；这些特征可以通过线性组合或非线性转换在任务之间整体使用。

总的来说，通过正则化、归纳转移和特征共享，MTL可以是提升ML模型在多个任务上性能的一种高效且有效的方式。贡献与亮点。

现有综述。Ruder (2017) 的研究是MTL的先锋综述，提供了MTL的广泛概述，并专注于2015年到2017年深度神经网络的进展。Thung和Wee (2018) 从输入输出变体的分类学角度回顾了MTL方法，主要集中在2016年之前的传统MTL。这两篇综述可以相辅相成。Vafaeikia等人 (2020) 是一份不完整的综述，简要回顾了近期的深度MTL方法，特别关注于选择辅助任务以增强学习性能。Crawshaw (2020) 从应用的角度介绍了2020年之前的成熟和先进的MTL方法。Vandenhende等人 (2021) 提供了在密集预测任务中深度MTL的全面综述，这些任务生成像素级预测，如在语义分割和单眼深度估计中。Y. Zhang和Yang (2021) 首先从基于特征和基于参数的方法的分类学提供了MTL模型的全面概述，但对深度学习（DL）方法的包含有限。值得注意的是，所有这些综述都忽略了过去三到四年MTL的发展，即大型PFMs（预训练基础模型）时代（Bommasani等，2021；C. Zhou等，2023），以GPT系列模型为代表（Brown等，2020；OpenAI，2023；Radford等，2018，2019）。

路线图。本综述采用了一个组织良好的结构，区别于其前辈们，展示了MTL从传统方法到DL以及由PFMs引入的创新范式转变的演变之旅，如图1所示。在§ 2.1中，我们提供了传统MTL技术的全面总结，包括特征选择、特征转换、分解、低秩因子化、先验共享和任务聚类。接下来，§ 2.2致力于探索深度MTL方法的关键维度，包括特征融合、级联、知识蒸馏、跨任务注意力、标量化、多目标优化（MOO）、对抗训练、专家混合（MoE）、基于图的方法和NAS。§ 2.3介绍了PFMs的最新进展，分类基于任务可泛化微调、任务可提示工程以及任务不可知统一。此外，我们在§ 3中提供了MTL的杂项方面的简洁概述。§ 4提供了宝贵的资源和工具，以增强研究人员和实践者与MTL的互动。我们的讨论和未来方向在§ 5中呈现，随后是我们在§ 6中的结论。这篇综述的目标是三重的：1) 为新来者提供MTL的全面理解；2) 作为工程实践者的工具箱或手册；3) 通过提供对MTL未来方向和潜力的洞察，激发专家的灵感。

成为VIP会员查看完整内容

相关内容

多任务学习

关注 161

多任务学习（MTL）是机器学习的一个子领域，可以同时解决多个学习任务，同时利用各个任务之间的共性和差异。与单独训练模型相比，这可以提高特定任务模型的学习效率和预测准确性。多任务学习是归纳传递的一种方法，它通过将相关任务的训练信号中包含的域信息用作归纳偏差来提高泛化能力。通过使用共享表示形式并行学习任务来实现,每个任务所学的知识可以帮助更好地学习其它任务。

《高效多模态大型语言模型》综述

专知会员服务

73+阅读 · 2024年5月20日

《大型语言模型持续学习》综述

专知会员服务

93+阅读 · 2024年4月26日

大型语言模型图表示学习：技术的全面综述

专知会员服务

53+阅读 · 2024年2月14日

基于大型语言模型的多智能体：进展与挑战综述

专知会员服务

138+阅读 · 2024年2月6日