项目名称: 面向高维多示例数据的潜在语义分类模型及其实现

项目编号: No.61305061

项目类型: 青年科学基金项目

立项/批准年度: 2014

项目学科: 自动化技术、计算机技术

项目作者: 吕艳萍

作者单位: 厦门大学

项目金额: 26万元

中文摘要: 大规模高维多示例数据分类是智能医疗、生物信息学等现代信息工程亟待解决的一个共性问题。本项目从数据潜在语义角度研究高维多示例数据分类的新模型和新方法,以解决传统方法存在的距离测度无效、学习假设不合理等问题,是分类模型研究的语义升华。主要研究内容有:研究大规模示例集的语义提取和表示,以及多示例包有效重构技术;在高维空间中,研究多类潜在语义分类模型,并将距离测度、数学模型和优化策略升华到潜在语义空间中进行;在此基础上,进一步研究预测包中未标记示例类别的半监督策略。采用潜在语义分类模型的优点是它可以同时考虑包之间的整体差异和包的内部差异来重构多示例包,并且在高维空间中提取数据潜在语义特征,使得数据之间既有可比性,又能够比较语义差异。该项目的成功实施,将在语义层面上构建面向高维多示例数据实用且具有普适性的分类模型和搜索算法,对此类数据分类性能的改善将产生积极影响,对分类算法的进一步应用有着重要意义。

中文关键词: 分类;高维数据;多示例学习;潜在语义模型;

英文摘要: Classification large-scale high-dimensional multiple instance data is commonly seen in modern information engineerings, such as smart medicine, bioinformatics and so on. Traditional classification methods have their limitations in dealing with such kind of data, such as ineffective similarity measure, unreasonable learning assumption etc. Using latent semantic information to classify high-dimensional multiple instance data can promote the research on classification model. In this project, we will conduct the following research programs: to investigate semantic extraction and representation from a large scale of instances, as well as reconstruction of bags in multiple instance learning; to investigate multi-class latent semantic classification model in high-dimensional spaces, from which dissimilarity measure, mathematical optimization model and search strategy are upgraded into the latent semantic level; to investigate semi-supervised techniques for prediction of unlabeled instances. The advantage of using a latent semantic multiple instance classification model is that it can reconstruct multiple instance bags by taking into consideration both the inter and intra bag difference. Moreover, it can establish a feature space defined by latent semantic features extracted from high-dimensional data, thus instances ar

英文关键词: Classification;High-dimensional Data;Multiple Instance Learning;Latent Semantic Model;

成为VIP会员查看完整内容
1

相关内容

面向知识图谱的图嵌入学习研究进展
专知会员服务
61+阅读 · 2021年11月3日
专知会员服务
37+阅读 · 2021年10月16日
专知会员服务
42+阅读 · 2021年6月22日
专知会员服务
44+阅读 · 2020年12月8日
企业风险知识图谱的构建及应用
专知会员服务
98+阅读 · 2020年11月6日
【2020新书】数据结构与数据表示指南,112页pdf
专知会员服务
83+阅读 · 2020年10月6日
AAAI 2022 | 面向图数据的对抗鲁棒性研究
专知
1+阅读 · 2022年1月4日
将对比学习扩展到监督式场景
TensorFlow
1+阅读 · 2021年7月20日
基于二进制哈希编码快速学习的快速图像检索
极市平台
12+阅读 · 2018年5月17日
一文读懂机器学习概率图模型(附示例&学习资源)
关系推理:基于表示学习和语义要素
计算机研究与发展
18+阅读 · 2017年8月22日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Simple and Effective Unsupervised Speech Synthesis
Arxiv
2+阅读 · 2022年4月20日
Arxiv
0+阅读 · 2022年4月14日
Arxiv
10+阅读 · 2018年4月19日
小贴士
相关VIP内容
面向知识图谱的图嵌入学习研究进展
专知会员服务
61+阅读 · 2021年11月3日
专知会员服务
37+阅读 · 2021年10月16日
专知会员服务
42+阅读 · 2021年6月22日
专知会员服务
44+阅读 · 2020年12月8日
企业风险知识图谱的构建及应用
专知会员服务
98+阅读 · 2020年11月6日
【2020新书】数据结构与数据表示指南,112页pdf
专知会员服务
83+阅读 · 2020年10月6日
相关基金
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员