监督和半监督学习下的多标签分类综述

2022 年 8 月 3 日 专知

摘要： 传统的多标签分类算法大多数采用监督学习的方式,但现实生活中有许多数据没有被标记。通过人工的方式对需要的全部数据进行标记耗费的成本较高。半监督学习算法可以使用大量未标记数据和标记数据来进行工作,因此受到了人们的重视。文中首次从监督和半监督学习的角度对多标签分类算法进行阐述,同时全面地对多标签分类算法的应用领域进行了总结。从决策树、贝叶斯、支持向量机、神经网络和集成等多个方向对标签非相关性和标签相关性的监督学习算法进行概述,从批处理和在线的方向对半监督学习算法进行综述,从图像分类、文本分类和其他等角度对多标签的实际应用领域进行介绍。文中还简要分析了多标签的评估指标,最后给出了关于半监督学习下的复杂概念漂移处理、特征选择处理、标签复杂相关性处理和类不平衡处理的研究方向。

随着大数据技术的快速发展,生活中产生了大量的数据, 这些数据中包含着与人类生活密切相关的许多信息,为了从中获得需要的数据,学者开展了许多与数据挖掘有关的研究[１].传统的分类方法侧重于对单标签进行分类,然而,许多现实问题却需要使用多标签分类(MultiＧlabelClassification, MLC)[２]来解决. 给定一个d维输入空间X＝X１×􀆺×Xd 和一个输出标签Y＝{λ１,λ２,􀆺,λq},q＞１.多标签实例可以定义为一对(x, y),其中x＝(x１,􀆺,xd)∈X 并且y⊆Y,其中y 被称为标签集.当标签j和实例x 相关时,λj等于１,否则等于０.MLC 的目标是构建一个预测模型h:X→２Y ,为未知实例提供一组相关标签.每个实例可能有几个与其相关的标签,这些标签来自先前定义的标签集.因此,对于每个x∈X,有标签空间 Y 的二分集合(y,y －),其中y 是相关标签的集合,y －是不相关标签的集合.

MLC主要可以应用于文本分类[３]、医学诊断分类[４]、蛋白质分类[５]、音乐[６]或视频分类[７]等.例如,在文本分类中, 关于神州十二号发射的报道可以归类为社会类别,也可以归类为科技类别.类似地,在医学诊断分类中,一位病人可以同时患有糖尿病和高血压疾病.

经典的 MLC方法主要分为问题转化(ProblemTransforＧ mation,PT)和算法自适应(Algorithm Adaptation,AA).PT 是将多标签问题转化成多个简单的单标签分类问题,其中最常用的是二元相关(BinaryRelevance,BR)方法.BR 方法将多标签分类问题转化为|L|个不同的二元单标签分类问题, 转化后,选择任何现有的二元单标签分类算法作为基分类器. BR方法未考虑标签之间的相关性,为了解决这一问题,研究人员提出了分类器链方法(ClassifierChains,CC)[８],它是在 BR算法的基础上,通过链的方法连接由 BR 获得的二元分类器.标签幂集(LabelPowerＧSet,LP)方法也是一种 PT 方法, LP是将多标签问题转化为具有２|L| 个类标签的多类问题. 随机子标签集成算法(Random KＧLabelsets,RAkEL)[９]是对 LP方法的一种集成使用,其中每个 LP基分类器都是由随机生成的且互不相同的小规模标签子集训练而成.AA 是修改现有的算法以适应需要解决的新问题,具体表现为将现有的单标签分类问题调整为 MLC问题.构建 AA的流行模型包括 k近邻[１０]、决策树[１１]、支持向量机[１２]、神经网络[１３]等. 近年来,已有一些关于 MLC 的综述.Zhang等[１４]介绍了多标签学习的基础知识,对８种经典的算法进行了分析和讨论,总结了多标签学习的在线资源等.Tsoumakas等[１５]从 PT和 AA 的角度对多标签进行分类的方法进行了详细的介绍,简单介绍了一些评估指标,最后比较了 MLC方法的实验结果.Moyano等[１６]对２０个数据集上的多标签集成分类算法进行了比较,根据数据不平衡、标签间相关性的特征来评价它们的性能.Zhou等[１７]针对评估措施和标签相关性问题对多标签学习进行了讨论,同时讲述了４种具有代表性的多标签算法的基本思想和技术细节.Zheng等[１８]从多标签数据流分类的角度介绍了传统的 MLC 方法并讨论了它们的优缺点,确定了多标签数据流分类的挖掘约束.至今为止,还没有综述从监督学习和半监督学习的角度对 MLC 进行介绍,同时也没有综述对多标签的实际应用进行全面的介绍.本文的总体框架如图１所示.

本文的主要贡献有: (１)首次从监督学习和半监督学习两个方面对 MLC 算法进行了综述,角度更加新颖、全面. (２)首次从实际应用领域对 MLC 算法进行了全面的综述,总结了近年来应用领域的先进算法. (３)深入分析了 MLC算法中存在的问题,并提出了未来的研究方向.

专知便捷查看