在本论文中,我们专注于计算机视觉中的多任务学习。多任务学习的目标是同时训练多个相关但不同的任务,并在每个任务上取得良好表现,实现任务间的双向知识传递。我们旨在解决多任务学习中与偏差相关的现有挑战,例如数据不足、类别偏移和任务不平衡等问题。以往的多任务学习方法通常需要来自所有任务的广泛且完整的训练数据,容易导致过拟合和模型性能不佳等问题。论文围绕解决四个关键研究问题展开:
人工智能(AI)和机器学习(ML)已经改变了许多行业。在医疗保健领域,AI和ML促进了诊断工具的增强 [105],帮助识别患者数据模式,并支持外科手术操作。在交通领域,配备AI和ML的自动驾驶车辆通过提高安全性和效率来改变出行方式 [2]。在金融领域,AI驱动的算法在防范欺诈、风险管理和优化投资策略中发挥关键作用 [75]。这些技术所带来的机会在各个领域提供了巨大的潜在收益,但需根据具体应用领域进行调整。 针对特定应用开发AI和ML技术面临诸多挑战,尤其是在数据处理方面。AI和ML技术通常假设训练和测试数据来自相同的环境,例如交通领域中的同一时间、天气和地理位置 [178]。然而,当这些技术遇到来自不同实验的数据时,模型通常会失效,因为其泛化能力不佳。实际操作中,由于环境间存在固有的分布差异,处理不同环境的数据并非易事。在机器学习中,有四个相关研究领域专门处理不同环境下的分布偏移问题:迁移学习 [146]、领域泛化 [248]、元学习 [80]和多任务学习 [240]。 为了解决分布偏移,知识迁移在机器学习中作为一种理想策略逐渐兴起 [146]。知识迁移首先从一个领域或模态中学习到有用的知识,然后将其应用到另一个不同但相关的领域。根据知识迁移的类型,我们将四个研究领域分为两个分支: 1. 第一分支是单向知识迁移,包括迁移学习、领域泛化和元学习。这三种研究方向从源任务到目标任务进行单向知识迁移。在传统迁移学习设置中,目标任务中的一些标注数据用于模型微调 [146, 248]。领域泛化 [248]利用单一或多个相关但不同的源领域数据训练模型,并将学习到的模型泛化到任何分布不同的领域。元学习则从已知的训练任务中学习元知识,并快速将其适应到未来的新任务。 1. 第二分支是双向知识迁移,即多任务学习。与单向方法不同,多任务学习在任务之间进行双向知识迁移,因为它将所有任务视为平等。为便于清晰直接的对比,我们在图1中展示了这些研究领域。本文的研究范围集中在多任务学习,其中一个领域或模态通常对应于一个单一任务。
1.2 多任务学习 多任务学习(MTL)的目标是通过挖掘任务间的共享知识来提升多个相关学习任务的整体性能。多任务学习相较于单任务学习的关键优势在于它能够在相关任务之间共享表示,这可以提高学习效率,并通过联合学习任务的正则化效果提升模型在单个任务上的性能 [27, 240]。多任务学习已在自然语言处理 [31, 120, 148]、计算机视觉 [88, 122, 195]和强化学习 [49, 171]等多个领域成功应用。我们的研究重点是计算机视觉中的多任务学习。