项目名称: 基于多维潜层特征抽取模型的演进式文本过滤
项目编号: No.60905017
项目类型: 青年科学基金项目
立项/批准年度: 2010
项目学科: 轻工业、手工业
项目作者: 徐蔚然
作者单位: 北京邮电大学
项目金额: 17万元
中文摘要: 本项目研究针对短信、邮件和网页的演进式文本过滤。其特点是个性化需求、变化的文本内容、变化的分类类别和更主动的功能要求等。演进式过滤的根本问题是训练样本不足,拟通过改善特征空间解决关键问题,即利用潜层特征提取知识、表示知识和利用知识。项目将主要研究两方面内容:根据文档、词语、类别、用户和时间等可观测维度以及它们的内在关联建立关系模型,并基于该模型抽取隐藏的、具有概括性和完备性的潜在中间层特征;根据训练样本的内容和数量,综合考虑可观测的和潜在的特征,构建各种训练样本集下都能达到最高分类精度的识别算法。项目的研究内容符合模式识别和统计学习理论的基本要求,也符合当前技术发展的一般趋势,具有合理性、可行性和创新性。预研结果初步验证了研究方案的合理可行性。
中文关键词: 演进式文本过滤;文本分类;潜层特征;多维度;词语激活力
英文摘要:
英文关键词: Evolutional Document Filtering;Text Categorization;Latent Feature;Multi-layer Feature;Word Activation Force