【博士论文】机器学习中的标记增强理论与应用研究

2021 年 12 月 3 日 专知

来自东南大学徐　宁的博士论文，入选2021年度“CCF优秀博士学位论文奖”初评名单！

https://www.ccf.org.cn/Focus/2021-11-22/750448.shtml

机器学习中的标记增强理论与应用研究

标记端多义性是当今机器学习的热点问题。多标记学习中，每个样本都被赋予一组标记子集来表示其多种语义信息。然而，标记强度差异现象在多义性机器学习任务中广泛存在，而既有多标记学习研究中普遍采用的相关/无关两个子集的逻辑划分法几乎完全忽视了这种现象，造成学习过程中不可避免的信息损失。针对这一突出问题，有必要用一种称为标记分布的标注结构来代替逻辑标记对示例的类别信息进行描述。标记分布通过连续的描述度来显式表达每个标记与数据对象的关联强度，很自然地解决了标记强度差异的问题，而在以标记分布标注的数据集上学习的过程就称为标记分布学习。由于描述度的标注成本更高且常常没有客观的量化标准，现实任务中大量的多义性数据仍然是以简单逻辑标记标注的，为此本文提出了标记增强这一概念。标记增强在不增加额外数据标注负担的前提下，挖掘训练样本中蕴含的标记重要性差异信息，将逻辑标记转化为标记分布。

本文对标记增强进行研究，主要工作包括：构建标记增强基础理论框架。该理论框架回答了以下三个问题：第一，标记增强所需的类别信息从何而来？即标记分布的内在生成机制；第二，标记增强的结果如何评价？即标记增强所得标记分布的质量评价机制；第三，标记增强为何有效？即标记增强对后续分类器的泛化性能提升机制。理论分析和实验结果验证了标记增强的有效性。

提出一种面向标记分布学习的标记增强专用算法。 以面向标记分布学习的标记增强为目标专门设计的算法十分重要，其关键是如何设计能够充分挖掘数据中隐藏的标记信息的优化目标函数。因此，本文提出一种面向标记分布学习的标记增强方法 GLLE。该方法利用训练样本特征空间的拓扑结构以及标记间相关性，挖掘了标记强度信息，从而生成了标记分布。实验结果验证了 GLLE 对逻辑标记数据集进行标记增强处理后使用标记分布学习的有效性。

标记增强在其他学习范式上的应用。 本文提出了基于标记增强的多标记学习方法 LEMLL，该方法将标记增强与多标记预测模型统一到同一学习目标中，使得预测模型可以在更为丰富的监督信息下进行训练，有效地提升了学习效果。本文提出了基于标记增强的偏标记学习方法 PLLE，该方法利用标记增强恢复候选标记的描述度，使得后续的学习问题转化为多输出回归问题。在多标记数据集和偏标记数据集上的实验结果显示，相较于对比算法，基于标记增强方法取得了显著更优的表现。