项目名称: “新类别发现”学习及其应用

项目编号: No.61473087

项目类型: 面上项目

立项/批准年度: 2015

项目学科: 其他

项目作者: 刘胥影

作者单位: 东南大学

项目金额: 84万元

中文摘要: 新类别发现是本项目提出的一类新的机器学习问题,目标是利用已知类别的标记数据在未标记数据中发现新类别,并使所有类别上的分类能力最优。该问题来源于真实的微生物新物种发现(宏基因组数据封装)问题:对一个群落所有微生物的基因进行物种分类,其中绝大部分微生物尚未发现。项目围绕新类别发现及其应用从六个方面深入研究:(1)提出一种利用已知类数据发现新类,并使分类能力最优的算法(2)提出一种结合数据结构信息和监督信息的算法(3)提出一种利用类别相关性处理大量类别的快速高效的算法(4)提出一种有效发现新小类的算法(5)提出一种利用生物分类树学习的封装问题算法,并应用于973项目中的真实问题(6)提出一种基于多任务的算法,并应用于973项目中动态研究群落结构。本项目可望发表国际期刊会议国内一级学报高质量论文8-10篇,申请国家发明专利2项,软件著作权1项。

中文关键词: 机器学习;新类别;大量类别;类别不平衡;多任务学习

英文摘要: The project proposes New Classes Discovery, a new kind of machine learning problem. The learning target is to discover new classes from the unlabeled data using the labeled data from known classes, and to optimize the classification ability regarding all classes. It stems from a real-world problem, discovery of unknown microbe species (binning problem of metageonomics), which requires classifying the mixed gene sequences of all species from a microflora, but most of the species are undiscovered yet. The project studies the problem of New Classes Discovery and its applications from 6 aspects: (1) proposing an algorithm which uses labeled data to discover new classes from the unlabeled data, and optimizes the classification ability; (2) proposing an algorithm combining data structure information and supervised information; (3) proposing an algorithm by exploiting the class correlations to deal with many classes efficiently and effectively; (4) proposing an algorithm which can discover new minority classes effectively, and an algorithm which can discover new minority classes effectively from many classes; (5) proposing a taxonomy-based algorithm for binning problem, and applying it to the real-world problems in an ongoing 973 project; (6) proposing a multi-task-based algorithm for dynamic analysis of microflora in the 973 project. It is expected to publish 8-10 high quality papers on international journals and conference, and national top level journals, applying for 2 patents and 1 software copyright, and training several graduate students.

英文关键词: machine learning;new class;many classes;class imbalance;multi-task

成为VIP会员查看完整内容
0

相关内容

“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。” ——中文维基百科

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
IEEE TPAMI | 基于标注偏差估计的实例相关PU学习
专知会员服务
10+阅读 · 2021年10月23日
专知会员服务
14+阅读 · 2021年10月18日
元学习-生物医学中连接标记和未标记数据
专知会员服务
29+阅读 · 2021年8月3日
KDD20 | AM-GCN:自适应多通道图卷积网络
专知会员服务
39+阅读 · 2020年8月26日
专知会员服务
86+阅读 · 2020年8月2日
NeurIPS 2021:半监督节点分类中的拓扑不平衡学习
图与推荐
1+阅读 · 2021年11月7日
我们从哪里来?跨物种脑网络组图谱绘制为研究人类本源增添新证据
中国科学院自动化研究所
0+阅读 · 2021年7月12日
【泡泡图灵智库】体积实例感知语义建图与3D对象发现
泡泡机器人SLAM
22+阅读 · 2019年9月7日
标签间相关性在多标签分类问题中的应用
人工智能前沿讲习班
22+阅读 · 2019年6月5日
【推荐】伪标签学习导论 - 一种半监督学习方法
机器学习研究会
12+阅读 · 2017年10月5日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年5月3日
Arxiv
8+阅读 · 2022年4月29日
小贴士
相关VIP内容
相关资讯
相关基金
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员