项目名称: 面向文本挖掘的特征选择关键问题研究

项目编号: No.61163034

项目类型: 地区科学基金项目

立项/批准年度: 2012

项目学科: 自动化技术、计算机技术

项目作者: 裴志利

作者单位: 内蒙古民族大学

项目金额: 49万元

中文摘要: 特征选择是文本挖掘的关键问题,本项目拟对特征选择的两种关键技术,即特征降维和特征权重估算进行建模。针对计算复杂度高、容易陷入局部极值等问题提出基于机器学习和概率模型的特征选择新方法,主要包括如下内容:考虑特征之间的关联性,构建基于互信息和信息熵的特征选择模型;采用封装式选择方式前向选择策略,构造基于最小二乘支持向量机的特征选择方法;构造基于图挖掘算法的特征选择新方法,通过构造两种消息并反复迭代传递,选出最具有代表性的特征,迭代设定阈值,选择重要性排名靠前的属性作为文本挖掘的特征;把特征所属类别看成是可见的观察值,把离散的特征权值看成隐藏的状态,设计特征权值估计的概率模型;基于实数域粗糙集理论、引入特征对分类的决策信息作为分类指导,客观评估特征对分类的贡献程度。项目的完成对于文本特征研究具有重要的理论意义,对于提高文本分类和聚类等文本挖掘问题的效率及其在多个领域中的应用具有重要的现实意义。

中文关键词: 文本挖掘;特征选择;实数域粗糙集;信息熵;图挖掘

英文摘要:

英文关键词: Text Mining;Feature Selection;Real rough set;Entropy;Figure Mining

成为VIP会员查看完整内容
0

相关内容

特征选择( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ),或属性选择( Attribute Selection )。是指从已有的M个特征(Feature)中选择N个特征使得系统的特定指标最优化,是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段,也是模式识别中关键的数据预处理步骤。对于一个学习算法来说,好的学习样本是训练模型的关键。
面向语义搜索的自然语言处理
专知会员服务
59+阅读 · 2021年12月18日
专知会员服务
20+阅读 · 2021年7月19日
专知会员服务
35+阅读 · 2020年11月29日
【ACL2020】基于图神经网络的文本分类新方法
专知会员服务
68+阅读 · 2020年7月12日
基于多头注意力胶囊网络的文本分类模型
专知会员服务
77+阅读 · 2020年5月24日
注意力图神经网络的多标签文本分类
专知会员服务
111+阅读 · 2020年3月28日
新书《面向机器学习和数据分析的特征工程》,419页pdf
专知会员服务
142+阅读 · 2019年10月10日
基于知识图谱的文本挖掘 - 超越文本挖掘
专知
38+阅读 · 2019年8月18日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
用 LDA 和 LSA 两种方法来降维和做 Topic 建模
AI研习社
13+阅读 · 2018年8月24日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
情感分析的新方法,使用word2vec对微博文本进行情感分析和分类
数据挖掘入门与实战
22+阅读 · 2018年1月6日
手把手教你用LDA特征选择
AI研习社
12+阅读 · 2017年8月21日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Arxiv
1+阅读 · 2022年4月20日
Arxiv
24+阅读 · 2021年1月25日
Do RNN and LSTM have Long Memory?
Arxiv
19+阅读 · 2020年6月10日
小贴士
相关VIP内容
面向语义搜索的自然语言处理
专知会员服务
59+阅读 · 2021年12月18日
专知会员服务
20+阅读 · 2021年7月19日
专知会员服务
35+阅读 · 2020年11月29日
【ACL2020】基于图神经网络的文本分类新方法
专知会员服务
68+阅读 · 2020年7月12日
基于多头注意力胶囊网络的文本分类模型
专知会员服务
77+阅读 · 2020年5月24日
注意力图神经网络的多标签文本分类
专知会员服务
111+阅读 · 2020年3月28日
新书《面向机器学习和数据分析的特征工程》,419页pdf
专知会员服务
142+阅读 · 2019年10月10日
相关资讯
基于知识图谱的文本挖掘 - 超越文本挖掘
专知
38+阅读 · 2019年8月18日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
用 LDA 和 LSA 两种方法来降维和做 Topic 建模
AI研习社
13+阅读 · 2018年8月24日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
情感分析的新方法,使用word2vec对微博文本进行情感分析和分类
数据挖掘入门与实战
22+阅读 · 2018年1月6日
手把手教你用LDA特征选择
AI研习社
12+阅读 · 2017年8月21日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员