华东师大《无数据知识迁移》综述论文

在过去的十年中，许多深度学习模型在机器智能的各个领域得到了良好的训练并取得了巨大的成功，特别是在计算机视觉和自然语言处理方面。为了更好地利用这些训练有素的模型在域内或跨域迁移学习情况下的潜力，知识蒸馏(KD)和域自适应(DA)被提出并成为研究热点。它们的目的都是利用原始的训练数据从训练有素的模型中传递有用的信息。然而，在许多情况下，由于隐私、版权或机密性，原始数据并不总是可用的。最近，无数据知识迁移范式引起了人们的关注，因为它处理的是从训练有素的模型中提取有价值的知识，而不需要访问训练数据。它主要包括无数据知识蒸馏(DFKD)和无源数据领域适应(SFDA)。一方面，DFKD的目标是将原始数据的域内知识从一个繁琐的教师网络转移到一个紧凑的学生网络中，进行模型压缩和高效推理。另一方面，SFDA的目标是重用存储在经过良好训练的源模型中的跨领域知识，并使其适应于目标领域。本文从知识蒸馏和无监督领域适应的角度对无数据知识迁移的研究进行了全面的综述，以帮助读者更好地了解目前的研究现状和思路。本文将分别简要回顾这两个领域的应用和挑战。在此基础上，对未来的研究提出了一些看法。

图1. 知识蒸馏(KD)和无监督领域自适应(UDA)综述

随着深度学习的复兴，深度神经网络(DNN)在人工智能的各个领域取得了显著的进展，包括计算机视觉(CV)[1]和自然语言处理(NLP)[2]。特别是计算机视觉领域已经开发了大量深度卷积神经网络的应用(如图像分类[3]、目标检测[4]、语义分割[5]等)，极大地促进了深度学习的繁荣。从LeNet[6]、AlexNet[1]到ResNet[7]和DenseNet[8]，深度神经网络的显著成功主要依赖于超参数化的架构和大规模标注的训练数据。在实践中，DNN的应用可能面临两个问题:1)笨重的模型不可能部署在存储和计算能力有限的移动设备上，如自动驾驶汽车[9]和实时人脸识别系统[10]; 2) 由于标注成本过高，整个标注数据集无法用于训练，例如用于语义分割的像素级标注。

图2. 无数据知识蒸馏(DFKD)和无源领域适应(SFDA)概述

为了解决模型的深度部署问题，对[11]模型进行压缩以降低存储和计算成本，包括剪枝[12]、量化[13]和知识蒸馏[14]。知识蒸馏(Knowledge精馏，KD)[14]是一种流行的模型压缩方法，它将有价值的信息从一个繁琐的教师网络传输到一个紧凑的学生网络中。作为如图1(a)所示的通用师生知识传递框架，它可以与其他模型压缩方法相结合，无需进行任何具体设计[15]，[16]。学生网络以训练数据为输入，模拟训练良好的教师网络，与人类的学习方案非常相似。大多数的蒸馏方法都是从教师网络的中间特征图或预测中提取和传递知识。在模型压缩方面，近年来知识蒸馏技术的快速发展对半监督学习[17]、[18]、增量学习[19]、[20]、隐私保护[21]、[22]等产生了巨大的影响。

图3. 2016 - 2021年无数据知识迁移工作发展

除了繁琐的网络架构外，大规模数据集的高成本标注也限制了深度学习的应用。例如，手动注释cityscape[23]图像进行语义分割需要大约90分钟。解决这个问题的一种直观的方法是，利用来自相关领域(源领域)的特定知识来研究被考虑的目标领域，这是受到人类研究能力的启发。领域自适应[24]是一种很有前途的迁移学习范式，如图1(b)所示。它旨在将知识从源领域转移到目标领域，避免了劳动密集型的数据注释。根据目标域数据的标注率，可以将域自适应进一步分为无监督域自适应、半监督域自适应和弱监督域自适应。实际上，只有UDA方法完全避免了标注的代价，本文主要考虑的是UDA的设置。

综上所述，知识蒸馏和领域自适应是将有价值的知识从训练良好的深度神经网络迁移到域内或跨域网络的两个主要研究课题。上述方法都是基于数据驱动的，并依赖于原始数据或源数据可访问的前提下进行蒸馏或域适应。然而，由于隐私或版权的原因，在很多实际案例中，原始的训练数据是不可用的。例如，一些知名社区[26]-[29]发布了大量的预训练的深度学习模型[4]、[5]、[7]、[25]。但并不是所有的训练数据都可以用于压缩或使其适应新的领域。此外，医疗或面部数据是公共或第三方机构无法访问的，因为它涉及到患者或用户的隐私。因此，如何利用训练良好的模型(没有训练数据)进行知识迁移成为一个新的研究课题。将其概括为图2所示的“无数据知识迁移(Data-Free Knowledge Transfer, DFKT)”。特别地，该方法还涉及两个主要的研究领域:(1)没有训练数据的知识蒸馏方法称为无数据知识蒸馏(data - free knowledge精馏，DFKD);(2)没有源数据的域适应方法称为无源数据域适应(source -free domain adaptation, SFDA)。DFKD的目标是将训练数据集的原始信息提取并转换为一个紧凑的学生模型，SFDA的目标是通过目标数据查询和探索跨领域的知识。换句话说，DFKD在两个模型之间传递域内知识，而SFDA通过体系结构共享模型传递跨域知识。

近年来，无数据知识转移范式在深度学习的各个领域引起了人们的关注，特别是计算机视觉(包括图像分类[30]-[32]、目标检测[33]-[35]和超分辨率[36])。无数据知识转移的时间轴如图3所示。我们分别描述了DFKD和SFDA在上游和下游的发展。Lopes等人[37]在2016年首次提出了DNN的无数据知识蒸馏。它利用网络激活的摘要来重建其训练集。随着生成式对抗网络的兴起，2019年以来，一些生成式DFKD方法如雨后春笋般涌现，试图合成替代样本进行知识转移。还有一些研究是在[37]的基础上，利用激活状态总结[41]或批归一化统计量(BNS)[32]、[42]从噪声中恢复出原始图像数据。此外，2021年还发布了两个知识蒸馏综述[43]、[44]。SFDA方面，Chidlovskii等人[45]在这方面做了开拓性的工作。2018年至2020年，研究人员主要关注分类[30]、[46]、[47]的无源域自适应。SFDA的语义分割算法[48]、[49]和目标检测算法[33]、[35]从2020年开始研发。毫无疑问，未来将会有更多关于DFKT的研究发表。

虽然传统的数据驱动的知识迁移一直是计算机视觉领域的一个长期挑战，在模型压缩和数据标注的成本降低方面取得了很大的成功，但大多数工作都忽视了数据隐私和商业版权问题，这些问题越来越受到关注。一些研究人员对传统的数据驱动知识蒸馏[43]、[44]、[50]和领域适应[24]、[51]-[53]进行了全面、详细的综述，其中DFKD或SFDA只是冰山一角。然而，随着DFKT的不断成熟，相关的研究也越来越多，这使得研究和产业界都难以跟上新进展的步伐。有鉴于此，我们迫切需要对现有的工作进行调研，这对社区是有益的。在本综述中，我们重点在一个统一的无数据知识迁移框架下，对现有的DFKD和SFDA方法进行分类和分析。我们分别讨论了无数据知识蒸馏和无源领域自适应，并从数据重构算法和知识迁移策略两个方面对它们进行了连接和比较。为了便于理解，我们根据DFKD和SFDA的实现对它们进行了分层分类，如图4所示，并展示了我们调研的组织结构。总之，我们的贡献有三方面: