机器学习中的标记增强理论与应用研究

标记端多义性是当今机器学习的热点问题。多标记学习中,每个样本都被赋予一组 标记子集来表示其多种语义信息。然而,标记强度差异现象在多义性机器学习任务中广 泛存在,而既有多标记学习研究中普遍采用的相关/无关两个子集的逻辑划分法几乎完 全忽视了这种现象,造成学习过程中不可避免的信息损失。针对这一突出问题,有必要 用一种称为标记分布的标注结构来代替逻辑标记对示例的类别信息进行描述。标记分布 通过连续的描述度来显式表达每个标记与数据对象的关联强度,很自然地解决了标记强 度差异的问题,而在以标记分布标注的数据集上学习的过程就称为标记分布学习。由于 描述度的标注成本更高且常常没有客观的量化标准,现实任务中大量的多义性数据仍然 是以简单逻辑标记标注的,为此本文提出了标记增强这一概念。标记增强在不增加额外 数据标注负担的前提下,挖掘训练样本中蕴含的标记重要性差异信息,将逻辑标记转化 为标记分布。

本文对标记增强进行研究,主要工作包括:构建标记增强基础理论框架。该理论框架回答了以下三个问题:第一,标记增强所 需的类别信息从何而来?即标记分布的内在生成机制;第二,标记增强的结果如何评价?即标记增强所得标记分布的质量评价机制;第三,标记增强为何有效?即标记增强对后 续分类器的泛化性能提升机制。理论分析和实验结果验证了标记增强的有效性。

提出一种面向标记分布学习的标记增强专用算法。以面向标记分布学习的标记增强 为目标专门设计的算法十分重要,其关键是如何设计能够充分挖掘数据中隐藏的标记信 息的优化目标函数。因此,本文提出一种面向标记分布学习的标记增强方法 GLLE。该 方法利用训练样本特征空间的拓扑结构以及标记间相关性,挖掘了标记强度信息,从而 生成了标记分布。实验结果验证了 GLLE 对逻辑标记数据集进行标记增强处理后使用标 记分布学习的有效性。

标记增强在其他学习范式上的应用。本文提出了基于标记增强的多标记学习方法 LEMLL,该方法将标记增强与多标记预测模型统一到同一学习目标中,使得预测模型可 以在更为丰富的监督信息下进行训练,有效地提升了学习效果。本文提出了基于标记增 强的偏标记学习方法 PLLE,该方法利用标记增强恢复候选标记的描述度,使得后续的 学习问题转化为多输出回归问题。在多标记数据集和偏标记数据集上的实验结果显示, 相较于对比算法,基于标记增强方法取得了显著更优的表现。

成为VIP会员查看完整内容
27

相关内容

“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。” ——中文维基百科

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
机器学习中原型学习研究进展
专知会员服务
45+阅读 · 2022年1月18日
【博士论文】开放环境下的度量学习研究
专知会员服务
45+阅读 · 2021年12月4日
【博士论文】推荐系统多行为建模与隐私保护研究
专知会员服务
52+阅读 · 2021年11月27日
专知会员服务
36+阅读 · 2020年12月22日
专知会员服务
54+阅读 · 2020年12月20日
专知会员服务
70+阅读 · 2020年12月7日
专知会员服务
74+阅读 · 2020年12月6日
【南京大学冯雯博士论文】新型深度学习模型的研究
专知会员服务
65+阅读 · 2020年12月5日
人工智能学习笔记,247页pdf
专知会员服务
173+阅读 · 2019年12月14日
东南大学张敏灵教授:偏标记学习的研究
学术头条
6+阅读 · 2019年12月5日
【ML小白】10 个机器学习 Q&A,面试必知!
机器学习算法与Python学习
4+阅读 · 2019年9月9日
论文浅尝 | 面向自动问题生成的跨语言训练
开放知识图谱
8+阅读 · 2019年9月6日
基于信息理论的机器学习
专知
21+阅读 · 2017年11月23日
Survey of Low-Resource Machine Translation
Arxiv
0+阅读 · 2022年2月7日
Arxiv
0+阅读 · 2022年2月2日
One-Class Classification: A Survey
Arxiv
7+阅读 · 2021年1月8日
Arxiv
7+阅读 · 2019年10月6日
Arxiv
15+阅读 · 2019年6月25日
VIP会员
相关VIP内容
机器学习中原型学习研究进展
专知会员服务
45+阅读 · 2022年1月18日
【博士论文】开放环境下的度量学习研究
专知会员服务
45+阅读 · 2021年12月4日
【博士论文】推荐系统多行为建模与隐私保护研究
专知会员服务
52+阅读 · 2021年11月27日
专知会员服务
36+阅读 · 2020年12月22日
专知会员服务
54+阅读 · 2020年12月20日
专知会员服务
70+阅读 · 2020年12月7日
专知会员服务
74+阅读 · 2020年12月6日
【南京大学冯雯博士论文】新型深度学习模型的研究
专知会员服务
65+阅读 · 2020年12月5日
人工智能学习笔记,247页pdf
专知会员服务
173+阅读 · 2019年12月14日
微信扫码咨询专知VIP会员