项目名称: 基于信息融合的生物医学文本高性能聚类研究
项目编号: No.60903076
项目类型: 青年科学基金项目
立项/批准年度: 2010
项目学科: 生物科学
项目作者: 朱山风
作者单位: 复旦大学
项目金额: 17万元
中文摘要: 生物医学文本聚类能够帮助生物医学研究人员迅速找到他们最感兴趣的文档,发现不同生物医学研究课题之间的潜在联系,为产生新的科学假设奠定基础。本项目的主要目标是开发出高性能生物医学文本聚类算法,为生物医学研究者浏览和查找所需信息提供便利。本课题主要基于信息融合的思想,针对当前生物医学文本聚类研究中利用单一信息(主要是内容信息)的缺陷,有机融合生物医学文本的三种重要信息:内容信息、生物医学文本所特有的语义信息(由人工标注的医学主题词MeSH)和文献引用信息,以提供最好的聚类性能。拟解决的科学问题包括(1)如何设置内容信息中标题、摘要和MeSH之间的权重。(2)如何计算生物医学文档之间的语义相似度。(3)如何有效融合不同种类信息提高聚类性能。本课题也可以为开发其他领域中需要融合不同种类信息的高性能聚类算法提供研究思路。
中文关键词: 生物医学文本聚类;半监督聚类;信息融合;语义相似度;
英文摘要:
英文关键词: Bimoedical text clustering;Semi-supervsied Clustering;Information Fusion;Semantic similarity;