项目名称: 文本自动分类中样本重要性模型及应用研究

项目编号: No.61272212

项目类型: 面上项目

立项/批准年度: 2013

项目学科: 自动化技术、计算机技术

项目作者: 王明文

作者单位: 江西师范大学

项目金额: 70万元

中文摘要: 文本自动分类在有效分析和利用因特网数据方面有着重要作用,但这些数据的海量性和高维性是自动分类面临的主要难题。一种直接有效的解决途径是在保证学习算法分类性能的前提下,通过样本集约简或维数约简降低计算复杂性,并提高分类器的泛化能力。现有样本选择方法多基于统计抽样技术,需独立同分布假设;Boosting和最大间隔方法虽隐含样本选择思想,但依赖于具体的分类算法。本项目受认知科学中的样例理论启发,不对训练样本的分布做任何统计假设,从样本角度出发,根据样本对分类的贡献程度,提出样本重要性原理;拟应用随机过程和高维数据统计分析理论,给出训练集中类边界样本的自动判别方法,建立不依赖于具体分类器的样本重要性模型,研究样本重要性计算算法,并给出理论证明;结合已有分类算法,研究融合样本权重的分类算法;构建样本重要性与特征重要性的对偶关系,研究相应的特征选择和样本选择的新方法,为文本分类及一般分类问题提供新的思路

中文关键词: 文本自动分类;样本重要性;特征选择;类边界;对偶关系

英文摘要: Text automated categorization is important to analyze and organize the Internet data effectively. The main challenges of automated categorization are massive scale and high dimensionality of the data. A direct and effective approach is to reduce computing complexity using the sample reduction or dimensionality reduction, which can improve the classifier's generalization ability and without loss of classification performance. The most of sample selection methods are based on statistical sampling theory, in which the samples should obey independent identical distribution(iid). Boosting and large margin approaches imply the thought of sample selection, but they depend on the specific algorithms. Inspired by the theory of worked example in cognitive science,this project proposes sample importance principle. The sample importance is measured by the contribution of samples to classification without any statistical assumption . In order to derive sample importance model that is not depend on sepecific classifiers, we will provide the approaches of automatically identifying class boundaries in the training data set by using random process and high-dimensional data analysis theory to design the algorithms of computing sample importance and to give mathematical proof. For example, we can exploit a random walks algorithm

英文关键词: Text automated categoriaztion;Sample importance;Feature selection;Boundary;Dual relationship

成为VIP会员查看完整内容
0

相关内容

【博士论文】开放环境下的度量学习研究
专知会员服务
45+阅读 · 2021年12月4日
【博士论文】机器学习中的标记增强理论 与应用研究
专知会员服务
28+阅读 · 2021年12月3日
【NeurIPS2021】由相似性迁移的弱样本细粒度分类
专知会员服务
20+阅读 · 2021年11月11日
专知会员服务
23+阅读 · 2021年7月17日
专知会员服务
65+阅读 · 2021年7月11日
专知会员服务
41+阅读 · 2021年6月6日
机器学习的可解释性
专知会员服务
68+阅读 · 2020年12月18日
基于多头注意力胶囊网络的文本分类模型
专知会员服务
76+阅读 · 2020年5月24日
自动结构变分推理,Automatic structured variational inference
专知会员服务
38+阅读 · 2020年2月10日
2022最新图嵌入模型综述
机器学习与推荐算法
3+阅读 · 2022年1月18日
图嵌入模型综述
专知
3+阅读 · 2022年1月17日
【博士论文】开放环境下的度量学习研究
专知
6+阅读 · 2021年12月4日
长文本表示学习概述
云栖社区
15+阅读 · 2019年5月9日
专栏 | NLP概述和文本自动分类算法详解
机器之心
12+阅读 · 2018年7月24日
机器学习自动文本分类
AI前线
23+阅读 · 2018年2月4日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年4月17日
Arxiv
24+阅读 · 2021年1月25日
Arxiv
108+阅读 · 2020年2月5日
Arxiv
21+阅读 · 2018年8月30日
Arxiv
151+阅读 · 2017年8月1日
小贴士
相关VIP内容
【博士论文】开放环境下的度量学习研究
专知会员服务
45+阅读 · 2021年12月4日
【博士论文】机器学习中的标记增强理论 与应用研究
专知会员服务
28+阅读 · 2021年12月3日
【NeurIPS2021】由相似性迁移的弱样本细粒度分类
专知会员服务
20+阅读 · 2021年11月11日
专知会员服务
23+阅读 · 2021年7月17日
专知会员服务
65+阅读 · 2021年7月11日
专知会员服务
41+阅读 · 2021年6月6日
机器学习的可解释性
专知会员服务
68+阅读 · 2020年12月18日
基于多头注意力胶囊网络的文本分类模型
专知会员服务
76+阅读 · 2020年5月24日
自动结构变分推理,Automatic structured variational inference
专知会员服务
38+阅读 · 2020年2月10日
相关资讯
2022最新图嵌入模型综述
机器学习与推荐算法
3+阅读 · 2022年1月18日
图嵌入模型综述
专知
3+阅读 · 2022年1月17日
【博士论文】开放环境下的度量学习研究
专知
6+阅读 · 2021年12月4日
长文本表示学习概述
云栖社区
15+阅读 · 2019年5月9日
专栏 | NLP概述和文本自动分类算法详解
机器之心
12+阅读 · 2018年7月24日
机器学习自动文本分类
AI前线
23+阅读 · 2018年2月4日
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
相关论文
Arxiv
0+阅读 · 2022年4月17日
Arxiv
24+阅读 · 2021年1月25日
Arxiv
108+阅读 · 2020年2月5日
Arxiv
21+阅读 · 2018年8月30日
Arxiv
151+阅读 · 2017年8月1日
微信扫码咨询专知VIP会员