论文摘要:传统监督学习通常假设训练数据类别标记恒定、特征信息充分、样本充 足。但很多现实的机器学习任务不满足这些假设条件,导致学习效果不尽人 意。为此,本文考虑通过引入增广信息 (Augmented Information) 进行学习。增 广信息包括传统静态学习中未考虑的额外信息以及动态学习过程中出现的新信 息。本文主要工作如下:
- 提出了一种训练集标记增广学习方法 GLOCAL。该方法利用标记关系对多 标记训练数据中部分缺失的标记进行恢复补全,但无需额外的先验知识来 指定标记关系矩阵,而是在优化过程中同时习得全局和局部标记关系。实 验验证了本文方法的有效性。
- 提出了分别用于静态、动态测试集标记增广学习的方法 DMNL 和 MuENL。 DMNL 通过最小化多示例包级损失和聚类正则化项,预测静态测试集中的多 个新标记;MuENL 通过特征和预测值训练新标记检测器并建立鲁棒模型, 以检测动态新增的标记并对其建模。实验验证了本文方法的有效性。
- 提出了一种多示例特征增广学习方法 AMIV-lss。 针对数据特征信息不足 的学习问题,将额外获取的带噪信息形式化为增广多示例视图 (AMIV) 作为 样本的特征增广。AMIV-lss 通过在两个异构视图之间建立公共隐藏语义 子空间,减少噪声影响,提升学习性能。实验验证了本文方法的有效性。
- 提出了一种多视图样本增广学习方法 OPMV。 OPMV 通过对每个样本优化 视图一致性约束下的组合目标函数,即可随着新增多视图数据高效更新模 型,并能够利用视图之间结构提升学习性能,而无需存储整个数据集,避 免从头进行训练。理论和实验验证了本文方法的有效性和高效性。
- 提出了同时进行标记/特征/样本增广学习的方法 EM3NL。EM3NL 基于多视 图多示例多标记深度卷积神经网络,利用额外文本描述作为图片的补充 (特 ii 征增广),能够检测新标记 (标记增广),并可根据动态增加的样本即时更新 模型 (样本增广)。实验验证了本文方法的有效性。
关键词: 机器学习;增广学习;增广信息;多标记学习;新标记学习;多视图 学习;单趟学习
作者介绍:朱越,他是南京大学计算机科学与技术学院五年级博士生,也是LAMDA集团的成员。在此之前,他于2011年获得了计算机科学与技术的理学学士学位,并于2013年在周志华教授的指导下获得了理学硕士学位。2015年3月至2015年9月,他拜访了香港科技大学James T. Kwok的小组。