项目名称: 基金项目相似性检查系统研究
项目编号: No.M1121008
项目类型: 专项基金项目
立项/批准年度: 2012
项目学科: 矿业工程
项目作者: 张祖平
作者单位: 中南大学
项目金额: 15万元
中文摘要: 本课题以基金项目相似性检查为研究背景,研究项目相似性检查系统中涉及的关键技术,解决存在的项目数据难以准确快速提取、海量项目数据比对时间超长、比对结果难以清晰呈现等关键问题。具体研究基于海量数据的提取与特征化、自然科学类专有语料库的建立与中文分词准确性、停用词库维护、基本特征粒度的选取、多粒度的特征提取算法、文本内容的特征权重与阈值设定、特征数据存取方法、低复杂性的指纹化和相似度估值算法及实际高效的比对等关键技术。通过引进对海量数据快速原子化处理技术与任务分解分离合并等策略及基于SIMD指令集和GPU编程的加速算法以达到项目快速相似性检查的目标,并通过专门的界面设计与呈现技术以良好的相似度结果呈现给用户;通过采用基于指纹和语义特征的相似性检查方法对基金项目中的内容、引用关系进行相似性比对分析,挖掘出项目相似性关系,形成完整的基金项目相似性检查系统,为基金项目形式审查提供支持。
中文关键词: 海量数据的迁移和聚合;文本聚类;语义特征;相似度估值;比对算法
英文摘要:
英文关键词: Massive data migrating;Text clustering;Semantic feature;Similarity estimation;Comparison algorithm