项目名称: 基于复杂网络的中文文本语义相似度研究
项目编号: No.71373200
项目类型: 面上项目
立项/批准年度: 2013
项目学科: 管理科学
项目作者: 刘怀亮
作者单位: 西安电子科技大学
项目金额: 56万元
中文摘要: 为解决海量信息检索中知识匮乏、传统向量空间模型表征文本时语义缺失问题,针对中文文本"重意合、轻形式"的语言特点,本项目拟将复杂网络理论引入到中文文本语义相似度计算研究中,期望基于复杂网络建立海量文本库社区网络模型,研究其文本聚合机制、社区划分算法、社区发现算法等,以此为基础将语义关联文本以知识地图形式进行呈现;通过构建单一文本加权复杂网络模型对其进行语义表示,采用基于本体的词语相关度衡量文本特征词间语义关系,以此代表特征词连接边的权重,从而保留文本的语义信息及结构信息;利用复杂网络的网络特性对文本进行结构分析,以节点综合特性为依据,提取能够反映文本主题的关键词作为文本特征词,实现对文本复杂网络的优化重构;通过引入词义消歧技术对特征词节点进行语义标注,结合最大公共子图理论提取文本的公共部分以衡量文本间的相似度,提出基于复杂网络的中文文本相似度算法,从而为基于语义层次的中文文本处理提供支持。
中文关键词: 复杂网络;文本相似度;文本分类;知识共享;
英文摘要: In order to solve the problem of knowledge deficiency of massive information retrieval and semantic lose of traditional vector space model, according to Chinese language characteristics of paying great attention to meaning and despising the forms, this pr
英文关键词: complex network;text similarity;text classification;knowledge Sharing;