项目名称: 面向文本挖掘的特征选择关键问题研究
项目编号: No.61163034
项目类型: 地区科学基金项目
立项/批准年度: 2012
项目学科: 自动化技术、计算机技术
项目作者: 裴志利
作者单位: 内蒙古民族大学
项目金额: 49万元
中文摘要: 特征选择是文本挖掘的关键问题,本项目拟对特征选择的两种关键技术,即特征降维和特征权重估算进行建模。针对计算复杂度高、容易陷入局部极值等问题提出基于机器学习和概率模型的特征选择新方法,主要包括如下内容:考虑特征之间的关联性,构建基于互信息和信息熵的特征选择模型;采用封装式选择方式前向选择策略,构造基于最小二乘支持向量机的特征选择方法;构造基于图挖掘算法的特征选择新方法,通过构造两种消息并反复迭代传递,选出最具有代表性的特征,迭代设定阈值,选择重要性排名靠前的属性作为文本挖掘的特征;把特征所属类别看成是可见的观察值,把离散的特征权值看成隐藏的状态,设计特征权值估计的概率模型;基于实数域粗糙集理论、引入特征对分类的决策信息作为分类指导,客观评估特征对分类的贡献程度。项目的完成对于文本特征研究具有重要的理论意义,对于提高文本分类和聚类等文本挖掘问题的效率及其在多个领域中的应用具有重要的现实意义。
中文关键词: 文本挖掘;特征选择;实数域粗糙集;信息熵;图挖掘
英文摘要:
英文关键词: Text Mining;Feature Selection;Real rough set;Entropy;Figure Mining