小样本学习旨在通过少量样本学习到解决问题的模型.近年来在大数据训练模型的趋势下,机器学习和深度学习在许多领域中取得了成功.但是在现实世界中的很多应用场景中,样本量很少或者标注样本很少,而对大量无标签样本进行标注工作将会耗费很大的人力.所以,如何用少量样本进行学习就成为了目前人们需要关注的问题.本文系统梳理了当前小样本学习的相关工作,具体介绍了基于模型微调、基于数据增强和基于迁移学习三大类小样本学习模型与算法的研究进展;本文将基于数据增强的方法细分为基于无标签数据、基于数据合成和基于特征增强三类,将基于迁移学习的方法细分为基于度量学习、基于元学习和基于图神经网络三类.本文还总结了目前常用的小样本数据集,以及代表性的小样本学习模型在这些数据集上的实验结果,随后对小样本学习的现状和挑战进行了概述,最后展望了小样本学习的未来发展方向.
http://www.jos.org.cn/jos/ch/reader/create_pdf.aspx?file_no=6138&journal_id=jos
随着大数据时代的到来,深度学习模型已经在图像分类、文本分类等任务中取得了先进成果.但深度学习模型的成功很大程度 上依赖于大量训练数据,而在现实世界的真实场景中某些类别只有少量数据或少量标注数据,而对无标签数据进行标注将会消耗 大量的时间和人力.与此相反,人类只需要通过少量数据就能做到快速学习.例如一个五六岁的小孩子从未见过企鹅,但如果给他看 过一张企鹅的图像,当他进入动物园看到真正的企鹅时,就会马上认出这是自己曾经在图像上见过的“企鹅”,这就是机器学习和人类学习之间存在的差距.受到人类学习观点的启发[1],小样本学习[2] [3](few-shot learning)的概念被提出,使得机器学习更加靠近人类思维.
早在 20 世纪八九十年代,就有一些研究人员注意到了单样本学习(one-shot learning)的问题,直到 2003 年 Li 等[4]才正式提出了 单样本学习的概念.他们认为当新的类别只有一个或几个带标签的样本时,已经学习到的旧类别可以帮助预测新类别[5].小样本学 习也叫作少样本学习(low-shot learning) [7],其目标是从少量样本中学习到解决问题的方法.与小样本学习相关的概念还有零样本学 习(zero-shot learning)等.零样本学习是指在没有训练数据的情况下,利用类别的属性等信息训练模型,从而识别新类别.
小样本学习的概念最早从计算机视觉(Computer Vision) [8]领域兴起,近几年受到广泛关注,在图像分类任务中已有很多性能优 异的算法模型[34][37][45].但是在自然语言处理领域(Natural Language Processing) [9]的发展较为缓慢,原因在于图像和语言特性不同.图 像相比文本更为客观,所以当样本数量较少时,图像的特征提取比文本更加容易[87].不过近年来小样本学习在自然语言处理领域也 有了一些研究和发展[10][46][48].根据所采用方法的不同,本文将小样本学习分为基于模型微调、基于数据增强和基于迁移学习三种. 基于模型微调的方法首先在含有大量数据的源数据集上训练一个分类模型,然后在含有少量数据的目标数据集上对模型进行微 调.但这种做法可能导致模型过拟合,因为少量数据并不能很好地反映大量数据的真实分布情况.为解决上述过拟合的问题,基于数 据增强和基于迁移学习的小样本学习方法被提出.基于数据增强的方法是利用辅助数据集或者辅助信息增强目标数据集中样本的 特征或扩充对目标数据集,使模型能更好地提取特征.本文根据学习方法不同,将基于数据增强的小样本学习方法进一步细分为基 于无标签数据、基于数据合成和基于特征增强三类方法.基于迁移学习的方法是目前比较前沿的方法,是指将已经学会的知识迁移 到一个新的领域中.本文根据学习框架将基于迁移学习的方法细分为基于度量学习、基于元学习和基于图神经网络(Graph Neural Networks)的方法.在度量学习的框架下目前已有许多性能较好的小样本学习模型,例如比较著名的原型网络(Prototypical Networks) [34]和匹配网络(Matching Networks) [31]等.基于元学习的方法不仅在目标任务上训练模型,而是从许多不同的任务中学习 元知识,当一个新的任务到来时,利用元知识调整模型参数,使模型能够快速收敛.近年来随着图神经网络的兴起,研究者将图神经网 络也应用到小样本学习中,取得了先进的结果.
除了图像分类和文本分类这两个主要任务,许多其他任务也面临着小样本问题.在计算机视觉应用中,利用小样本学习进行人脸识别[8][60][82]、食品识别[61]、表情识别[66]、手写字体识别[70][79]以及其他的图像识别[65]. 在自然语言处理应用中,使用小样本方法 实现对话系统[67]、口语理解[62],或者完成 NLP 的基本任务,例如 word embedding[63].在多媒体领域应用中,可以使用小样本方法实现 影像提取[73]和声纹识别[80]等.在生物与医学领域,可以应用于疾病诊断[71][72]、临床实验[84]、护士能力评价[75]、农作物病害识别[69][81]、 水量分析[76]等.在经济领域,可应用于产品销量预测[77]等.在工业与军事领域,可应用于齿轮泵寿命预测[78]、军事目标识别[74]和目标 威胁评估[83]等.
本文首先从基于模型微调、基于数据增强和基于迁移学习三种方法介绍小样本学习的研究进展,总结小样本学习的几个著名数据集以及已有模型在这些数据集上的实验结果;接下来,本文对小样本学习的研究现状和主要挑战进行总结;最后展望了未来的 发展趋势.