项目名称: 面向异分布数据的主动学习方法

项目编号: No.61502117

项目类型: 青年科学基金项目

立项/批准年度: 2016

项目学科: 其他

项目作者: 吴伟宁

作者单位: 哈尔滨工程大学

项目金额: 21万元

中文摘要: 如何利用大量未标注数据来提高分类模型的泛化性能是当前机器学习、模式识别研究中备受关注的问题之一。主动学习有效利用了未标注数据的潜在信息,降低了构造训练集所需精确标注代价,成为解决该问题的主流方法之一。但是,传统主动学习在选取样本和添加标注过程中往往存在一些理想化假设,限制了主动学习效果。本项目针对异分布数据具有动态分布、大规模和噪声标注的特点,放宽传统主动学习较严格的假设,旨在开展面向异分布数据的主动学习研究。本项目研究针对动态异分布数据的主动采样策略,克服样本同分布假设的局限;同时,计算基于局部敏感哈希索引的样本不确定度,提升样本选择效率;针对噪声标注信息,主动估计所选样本的正确标注,进一步降低噪声标注的影响。最后,通过在视觉对象-类别检索系统上的应用,验证了面向异分布数据的主动学习方法在图像检索任务上的有效性,证明了该方法的性能优势。

中文关键词: 机器学习;主动学习;采样策略;标注估计

英文摘要: In the current research of machine learning and pattern recognition, it has attracted extensive attentions that how to utilize a large number of unlabeled data to enhance the generalized ability of the classifier. Active learning has become one of the main methods in solving the problem, because the potential information contained in the unlabeled data is fully utilized, and then annotation costs of constructing training sets are also reduced. But the application of active learning algorithms is restricted as a result of some idealized assumptions in example selection and annotation querying. In this project, considering the characteristics of dynamically distribution, large-scale data and noisy annotations, we plan to develop active learning algorithms by relaxing these strict assumptions in existing works of active learning. We plan to discuss an active sampling strategy in conditions of dynamically non-identical distributed data in order to overcome the limitation of identical distribution assumption. At the same time, we calculate the uncertainty of local-sensitive hashing data in order to increase the sampling efficiency. Then, in conditions of noisy annotations, we estimate the precise annotations of selected examples in order to further reduce the impact of noise. At last, we apply the above-mentioned active learning algorithms on a real task of object-to-category retrieval, and then validate the effectiveness of active learning algorithms.

英文关键词: machine learning;active learning;sampling strategy;annotation estimation

成为VIP会员查看完整内容
12

相关内容

“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。” ——中文维基百科

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【CVPR2022】通过特征Mixing进行主动学习
专知会员服务
26+阅读 · 2022年3月15日
WWW2022 | 迷途知返:分布迁移下的图神经网络自训练方法
专知会员服务
17+阅读 · 2022年2月19日
【AAAI2022】领域自适应的主动学习:一种基于能量的方法
专知会员服务
44+阅读 · 2021年12月6日
专知会员服务
30+阅读 · 2021年5月20日
【CVPR2021】多实例主动学习目标检测
专知会员服务
43+阅读 · 2021年4月18日
【ACMMM2020-北航】协作双路径度量的小样本学习
专知会员服务
29+阅读 · 2020年8月11日
鲁棒模式识别研究进展
专知会员服务
41+阅读 · 2020年8月9日
专知会员服务
51+阅读 · 2020年7月16日
迁移学习方法在医学图像领域的应用综述
【博士论文】开放环境下的度量学习研究
专知
7+阅读 · 2021年12月4日
【CVPR2021】多实例主动学习目标检测
专知
2+阅读 · 2021年4月19日
从 CVPR 2019 一览小样本学习研究进展
AI科技评论
11+阅读 · 2019年7月25日
【领域报告】主动学习年度进展|VALSE2018
深度学习大讲堂
15+阅读 · 2018年6月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
9+阅读 · 2011年12月31日
A Survey on Bayesian Deep Learning
Arxiv
63+阅读 · 2020年7月2日
小贴士
相关VIP内容
【CVPR2022】通过特征Mixing进行主动学习
专知会员服务
26+阅读 · 2022年3月15日
WWW2022 | 迷途知返:分布迁移下的图神经网络自训练方法
专知会员服务
17+阅读 · 2022年2月19日
【AAAI2022】领域自适应的主动学习:一种基于能量的方法
专知会员服务
44+阅读 · 2021年12月6日
专知会员服务
30+阅读 · 2021年5月20日
【CVPR2021】多实例主动学习目标检测
专知会员服务
43+阅读 · 2021年4月18日
【ACMMM2020-北航】协作双路径度量的小样本学习
专知会员服务
29+阅读 · 2020年8月11日
鲁棒模式识别研究进展
专知会员服务
41+阅读 · 2020年8月9日
专知会员服务
51+阅读 · 2020年7月16日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
9+阅读 · 2011年12月31日
微信扫码咨询专知VIP会员