【简介】近些年深度神经网络几乎在各个领域都取得了巨大的成功。然而,这些深度模型在尺寸上过于巨大,有几百万甚至上亿的参数,造成了巨大的计算开销,致使模型难以部署和落地。除此之外,模型的表现还高度依赖于大量的标注数据。为了使模型得到更加高效的训练和处理标记数据不足的难题,知识蒸馏(KD)被用来迁移从一个模型到另一个模型学习到的知识。这个过程也经常被描述为student-teacher(S-T)学习框架,并且已经被广泛应用到模型压缩和知识迁移中。这篇论文主要介绍了知识蒸馏和student-teacher学习模型。首先,我们对于KD是什么,它是如何工作的提供了一个解释和描述。然后,我们对近些年知识蒸馏方法的研究进展和典型用于视觉任务的S-T学习框架进行了一个全面的调研。最后,我们讨论了知识蒸馏和S-T模型未来的发展方向和研究前景,以及目前这些方法所面临的开放性挑战。

介绍

深度神经网络的成功主要依赖于精心设计的DNN架构。在大规模机器学习任务中,尤其是图像识别和语音识别任务,大多数基于DNN的模型都是凭借大量的参数来提取特征从而保证模型的泛化能力。这种笨重的模型通常都有非常深和非常宽的特点,需要花费大量的时间进行训练,而且不可能实时操作。所以,为了加速模型训练,许多研究人员尝试着利用预训练的复杂模型来获得轻量级的DNN模型,从而使得这些模型可以被部署应用。这是一篇关于知识蒸馏(KD)和student-teacher(S-T)学习模型的论文。一般来讲,知识蒸馏被视作一种机制:当只给出小型的训练集,其中包含相同或不同种类的样本的时候,这种机制能够使得人类快速学习新的,复杂的概念。在深度学习中,知识蒸馏是一个有效的方法,目前已经被广泛的应用在了从一个网络到另一个网络的信息转移上。知识蒸馏主要被应用在模型压缩和知识迁移这两个领域,对于模型压缩,一个较小的学生模型被训练来模仿一个预先训练好的较大的模型。尽管知识和任务种类多样,但是S-T框架是他们的一个相同点,其中提供知识的模型被称作teacher,学习知识的模型被称作student。我们对现有的知识蒸馏方法进行了重点分析和分类,其中还伴随着各种类型的S-T结构的模型压缩和知识转移。我们回顾和调查了这一迅速发展的领域,强调了该领域的最新进展。虽然知识蒸馏方法已经应用于视觉智能、语音识别、自然语言处理等各个领域,但本文主要关注的是视觉领域的知识蒸馏方法,所以论文中关于知识蒸馏的大多数阐释都是基于计算机视觉任务。由于知识蒸馏方法研究最多的领域是模型压缩,所以我们系统地讨论了该领域的技术细节、关键性挑战和发展潜力。同时,重点介绍了在半监督学习、自监督学习等领域的知识迁移方法,重点介绍了以S-T学习框架为基础的技术。

文章结构

section 2:探讨知识蒸馏和S-T学习框架为什么会吸引如此多的关注。 section 3:关于知识蒸馏的理论分析。 section 4-section14:对目前的方法进行分类,并且分析了面临的挑战以及该领域的发展前景。 section 15:根据上面的分类结果,我们回答了section 2中提出的问题。 section 16:介绍了知识蒸馏和S-T框架的潜力。 section 17:总结。

成为VIP会员查看完整内容
67

相关内容

最新《多任务学习》综述,39页pdf
专知会员服务
258+阅读 · 2020年7月10日
专知会员服务
49+阅读 · 2020年6月14日
最新《知识蒸馏》2020综述论文,20页pdf,悉尼大学
专知会员服务
155+阅读 · 2020年6月14日
最新《智能交通系统的深度强化学习》综述论文,22页pdf
最新《可解释深度学习XDL》2020研究进展综述大全,54页pdf
数据标注研究综述,软件学报,19页pdf
专知会员服务
85+阅读 · 2020年2月20日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
168+阅读 · 2020年2月8日
【综述】迁移自适应学习十年进展
专知
41+阅读 · 2019年11月26日
基于知识蒸馏的BERT模型压缩
大数据文摘
18+阅读 · 2019年10月14日
图数据表示学习综述论文
专知
51+阅读 · 2019年6月10日
迁移自适应学习最新综述,附21页论文下载
自动驾驶最新综述论文(31页PDF下载)
专知
118+阅读 · 2019年1月15日
深度学习综述(下载PDF版)
机器学习算法与Python学习
27+阅读 · 2018年7月3日
深度 | 迁移学习全面概述:从基本概念到相关研究
七月在线实验室
15+阅读 · 2017年8月15日
已删除
Arxiv
31+阅读 · 2020年3月23日
Teacher-Student Training for Robust Tacotron-based TTS
Arxiv
5+阅读 · 2018年10月11日
VIP会员
相关VIP内容
最新《多任务学习》综述,39页pdf
专知会员服务
258+阅读 · 2020年7月10日
专知会员服务
49+阅读 · 2020年6月14日
最新《知识蒸馏》2020综述论文,20页pdf,悉尼大学
专知会员服务
155+阅读 · 2020年6月14日
最新《智能交通系统的深度强化学习》综述论文,22页pdf
最新《可解释深度学习XDL》2020研究进展综述大全,54页pdf
数据标注研究综述,软件学报,19页pdf
专知会员服务
85+阅读 · 2020年2月20日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
168+阅读 · 2020年2月8日
相关资讯
【综述】迁移自适应学习十年进展
专知
41+阅读 · 2019年11月26日
基于知识蒸馏的BERT模型压缩
大数据文摘
18+阅读 · 2019年10月14日
图数据表示学习综述论文
专知
51+阅读 · 2019年6月10日
迁移自适应学习最新综述,附21页论文下载
自动驾驶最新综述论文(31页PDF下载)
专知
118+阅读 · 2019年1月15日
深度学习综述(下载PDF版)
机器学习算法与Python学习
27+阅读 · 2018年7月3日
深度 | 迁移学习全面概述:从基本概念到相关研究
七月在线实验室
15+阅读 · 2017年8月15日
微信扫码咨询专知VIP会员