什么是自监督学习?为什么重要
自监督学习(Self-supervised learning,简称SSL),被誉为“智能的暗物质”,是推动机器学习发展的有前景的途径。与受限于标记数据可用性的监督学习相反,自监督方法可以从大量未标记数据中学习[Chen等人,2020b,Misra和Maaten,2020]。自监督学习是深度学习在自然语言处理领域取得成功的基础,从自动机器翻译到在大规模未标记文本语料库上训练的大型语言模型都有所突破[Brown等人,2020,Popel等人,2020]。在计算机视觉领域,自监督学习通过如SEER等模型,在10亿图像上训练,不断突破数据规模的界限[Goyal等人,2021]。计算机视觉领域的自监督学习方法已经能够在一定程度上与标记数据训练的模型相匹敌,甚至在像ImageNet这样的高度竞争性基准上超越它们[Tomasev等人,2022,He等人,2020a,Deng等人,2009]。自监督学习还成功应用于视频、音频和时间序列等其他模态[Wickstrøm等人,2022,Liu等人,2022a,Schiappa等人,2022a]。
https://www.zhuanzhi.ai/paper/a8a1583021f922ad8d0c8187e97b718b
自监督学习根据未标记输入定义一个预处理任务,生成描述性和可理解的表示[Hastie等人,2009,Goodfellow等人,2016]。在自然语言中,一个常见的自监督学习目标是掩盖文本中的一个单词,预测周围的单词。预测单词上下文的目标鼓励模型在不需要任何标签的情况下捕捉文本中单词之间的关系。相同的自监督学习模型表示可以用于一系列下游任务,如跨语言翻译文本、总结甚至生成文本等等。在计算机视觉领域,类似的目标存在于像MAE或BYOL这样的模型中,它们学会预测图像或表示的掩码部分[Grill等人,2020,He等人,2022]。其他自监督学习目标鼓励通过添加颜色或裁剪等方式形成的相同图像的两个视图映射到相似的表示。利用大量未标记数据进行训练带来了诸多好处。虽然传统的监督学习方法通常是基于可用的标记数据,根据特定任务进行训练,但自监督学习学习到的通用表示在许多任务中都有用。在医学等领域,标签成本高昂或特定任务无法预先知道的情况下,自监督学习尤其有用[Krishnan等人,2022,Ciga等人,2022]。还有证据表明,与监督学习方法相比,自监督学习模型可以学习到更具鲁棒性的表示,更能抵抗对抗性样本、标签损坏和输入扰动,并且更加公平[Hendrycks等人,2019,Goyal等人,2022]。因此,自监督学习是一个越来越受关注的领域。然而,就像烹饪一样,训练自监督学习方法是一门精湛的艺术,门槛很高。 尽管研究人员对自监督学习(SSL)的许多组成部分较为熟悉,但成功训练一个SSL方法涉及到从预处理任务到训练超参数的一系列令人眼花缭乱的选择。由于(i)计算成本高,(ii)缺乏详细介绍实现所需复杂方法的完全透明论文,以充分发挥SSL潜力,以及(iii)缺乏统一的词汇和理论视角,SSL研究的门槛较高。由于SSL与传统的基于重构的无监督学习方法(如去噪、变分自动编码器)[Vincent等人,2008,2010,Kingma和Welling,2013]确立了不同的范式,我们对于从统一视角理解SSL的词汇有限。事实上,试图在单一视角下统一SSL方法的尝试仅在过去一年开始出现[HaoChen等人,2021,Balestriero和LeCun,2022,Shwartz-Ziv等人,2022,Garrido等人,2022b]。在没有一个共同基础来描述SSL方法的不同组成部分的情况下,研究人员开始研究SSL方法变得更具挑战性。与此同时,由于SSL如今在现实世界中得到广泛应用,SSL研究迫切需要新的研究人员。然而,关于SSL的泛化保证、公平性特性以及对抗性攻击或自然发生的变异的鲁棒性等方面仍存在许多尚待解决的研究问题。这些问题对SSL方法的可靠性至关重要。
此外,实证驱动的自监督学习(SSL)包含许多不同的部分(主要是超参数),这些部分可能会影响最终表示的关键属性,并且在已发表的工作中未必详细说明。也就是说,要开始研究自监督学习方法,首先必须通过实证检测这些方法,以充分了解所有这些部分的影响和行为。这样的实证盲点是很大的局限性,因为它们需要大量的计算资源和预先存在的实践经验。总之,看似不同但实际上重叠的方法产生的最先进的性能、现有的理论研究较少以及实际应用广泛,这使得有一个统一这些技术及其配方的教材变得至关重要,以降低自监督学习的研究门槛。我们的目标是通过以教材风格奠定自监督学习基础和最新的配方来降低进入自监督学习研究的门槛。要想成功烹饪,您必须首先学会基本技巧:切、炒等。我们从第2部分开始,使用通用词汇介绍自监督学习的基本技巧。具体来说,我们描述了方法的家族以及将它们的目标联系在一起的统一视角中的理论线索。我们强调了诸如损失项或训练目标等关键概念,并将它们放在概念框中。接下来,厨师必须学会熟练地运用技巧制作出美味的菜肴。这需要学习现有的配方、组装食材和评估菜肴。在第3部分,我们介绍实现自监督学习方法成功的实际考虑因素。我们讨论了常见的训练配方,包括超参数选择,如何组装组件(如架构和优化器)以及如何评估自监督学习方法。我们还分享了来自顶级研究人员的关于常见训练配置和陷阱的实用技巧。我们希望这本教材能为成功训练和探索自监督学习提供实用的基础。
第二部分讲了SSL的家族和来源,给出了常用词汇,从自监督学习的基本技巧开始手把手教你。其中包括:-SSL的起源-深度度量学习家族:SimCLR/NNCLR/MeanSHIFT/SCL-自蒸馏家族:BYOL/SimSIAM/DINO-典型相关分析家族:VICReg/BarlowTwins/SWAV/W-MSE-掩码图像建模-自监督学习的理论统一:SSL理论研究;表征的维度坍缩-预训练数据
自2020年以来,SSL方法迎来了复兴,这在很大程度上归功于超大数据集和高端内存GPU的可用性。然而,SSL的起源可以追溯到深度学习时代的最开始。
因此,第三部分介绍了常见的训练方法,包括超参数的选择,如何使用组建,以及评估方法。-数据增强的作用:multi-crop的作用-projector的作用-SSL的统一先验还是SSL在不平衡数据上的失败-教师学生架构具体策略:移除平均教师的作用;projector在自标记SSL中的作用-标准超参数的作用:小批量大小的作用;学习率(调度器)和优化器的作用;重量衰减的作用;Transformer注意事项-高性能掩码图像建模技术-评估SSL模型:带标签评估;无标签评估;超越分类;视觉评估-提速训练:分布式训练;用FFCV和其他加速训练更快;加速视觉Transformer的训练第四部分:将自监督学习扩展到图像和分类之外-其他数据域的策略-将多个模式纳入SSL训练-用本地化方法构建密集预测任务的特征提取器
在此,作者还分享了前沿的研究人员关于常见训练配置,以及陷阱的实用技巧。