项目名称: 文本语义模型和子空间聚类研究
项目编号: No.60905028
项目类型: 青年科学基金项目
立项/批准年度: 2010
项目学科: 矿业工程
项目作者: 景丽萍
作者单位: 北京交通大学
项目金额: 19万元
中文摘要: 信息化飞速发展的今天,文本数据海量涌现。如何从这些海量的文本数据中快速、自动地挖掘出对人们有用的知识是当今人们面临的重要任务之一,文本挖掘技术也就成了当今的热点研究方向。本项目将针对文本挖掘核心技术- - 文本表示模型构建和聚类方法设计进行创新性的研究,主要体现在以下几个方面:针对文本数据特性(海量、高维、稀疏、复杂语义),创建同时涵盖语法和语义信息的文本表示模型;设计适合高维稀疏海量数据的快速有效聚类方法;为聚类结果设计出基于知识库的主题概念抽取方法和结果评估方法;进而开发整合文本预处理、文本模型构建、聚类功能和结果评估展现的文本聚类系统原型,该系统可以作为独立的系统运行,同时也可以作为现有数据挖掘系统的子系统模块。
中文关键词: 文本挖掘;语义表示;子空间聚类;高维数据分析;领域知识库
英文摘要:
英文关键词: Text mining;Semantic representation;Subspace clustering;High-dimension data analysis;;Domain knowledge