项目名称: 基金项目相似性检查系统研究

项目编号: No.M1121008

项目类型: 专项基金项目

立项/批准年度: 2012

项目学科: 矿业工程

项目作者: 张祖平

作者单位: 中南大学

项目金额: 15万元

中文摘要: 本课题以基金项目相似性检查为研究背景,研究项目相似性检查系统中涉及的关键技术,解决存在的项目数据难以准确快速提取、海量项目数据比对时间超长、比对结果难以清晰呈现等关键问题。具体研究基于海量数据的提取与特征化、自然科学类专有语料库的建立与中文分词准确性、停用词库维护、基本特征粒度的选取、多粒度的特征提取算法、文本内容的特征权重与阈值设定、特征数据存取方法、低复杂性的指纹化和相似度估值算法及实际高效的比对等关键技术。通过引进对海量数据快速原子化处理技术与任务分解分离合并等策略及基于SIMD指令集和GPU编程的加速算法以达到项目快速相似性检查的目标,并通过专门的界面设计与呈现技术以良好的相似度结果呈现给用户;通过采用基于指纹和语义特征的相似性检查方法对基金项目中的内容、引用关系进行相似性比对分析,挖掘出项目相似性关系,形成完整的基金项目相似性检查系统,为基金项目形式审查提供支持。

中文关键词: 海量数据的迁移和聚合;文本聚类;语义特征;相似度估值;比对算法

英文摘要:

英文关键词: Massive data migrating;Text clustering;Semantic feature;Similarity estimation;Comparison algorithm

成为VIP会员查看完整内容
0

相关内容

文本聚类(Text Clustering)任务则是根据文档之间的内容或主题相似度,将文档集合划分成若干个子集,每个子集内部的文档相似度较高,而子集之间的相似度较低。
【2021新书】面向对象的Python编程,418页pdf
专知会员服务
70+阅读 · 2021年12月15日
【博士论文】分形计算系统
专知会员服务
32+阅读 · 2021年12月9日
找工作实用书《LeetCode 题解》,262页pdf
专知会员服务
129+阅读 · 2021年12月2日
【实用书】Python数据分析手册,437页pdf带你实战数据清洗
专知会员服务
58+阅读 · 2021年3月25日
【干货书】机器学习特征工程,217页pdf
专知会员服务
120+阅读 · 2021年2月6日
基于机器学习的数据库技术综述
专知会员服务
53+阅读 · 2021年1月2日
【2020干货书】Python3基础导论介绍,98页pdf
专知会员服务
99+阅读 · 2020年10月11日
算法与数据结构Python,369页pdf
专知会员服务
160+阅读 · 2020年3月4日
机器学习中原型学习研究进展
专知
0+阅读 · 2022年1月18日
【博士论文】分形计算系统
专知
2+阅读 · 2021年12月9日
Github六个知识图谱实战项目推荐
专知
379+阅读 · 2019年6月2日
去哪儿网开源DNS管理系统OpenDnsdb
运维帮
21+阅读 · 2019年1月22日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
图像检索研究进展:浅层、深层特征及特征融合
中国计算机学会
122+阅读 · 2018年3月26日
已删除
将门创投
12+阅读 · 2017年10月13日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年4月20日
小贴士
相关VIP内容
【2021新书】面向对象的Python编程,418页pdf
专知会员服务
70+阅读 · 2021年12月15日
【博士论文】分形计算系统
专知会员服务
32+阅读 · 2021年12月9日
找工作实用书《LeetCode 题解》,262页pdf
专知会员服务
129+阅读 · 2021年12月2日
【实用书】Python数据分析手册,437页pdf带你实战数据清洗
专知会员服务
58+阅读 · 2021年3月25日
【干货书】机器学习特征工程,217页pdf
专知会员服务
120+阅读 · 2021年2月6日
基于机器学习的数据库技术综述
专知会员服务
53+阅读 · 2021年1月2日
【2020干货书】Python3基础导论介绍,98页pdf
专知会员服务
99+阅读 · 2020年10月11日
算法与数据结构Python,369页pdf
专知会员服务
160+阅读 · 2020年3月4日
相关资讯
机器学习中原型学习研究进展
专知
0+阅读 · 2022年1月18日
【博士论文】分形计算系统
专知
2+阅读 · 2021年12月9日
Github六个知识图谱实战项目推荐
专知
379+阅读 · 2019年6月2日
去哪儿网开源DNS管理系统OpenDnsdb
运维帮
21+阅读 · 2019年1月22日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
图像检索研究进展:浅层、深层特征及特征融合
中国计算机学会
122+阅读 · 2018年3月26日
已删除
将门创投
12+阅读 · 2017年10月13日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员