项目名称: 基于多样化特征表达的生物文献自动分类研究
项目编号: No.60903093
项目类型: 青年科学基金项目
立项/批准年度: 2010
项目学科: 生物科学
项目作者: 兰曼
作者单位: 华东师范大学
项目金额: 17万元
中文摘要: 生物文献的自动分类方法是生物信息学的重要研究内容,也是文本分析与挖掘领域的研究课题,既有理论研究意义,又有实际应用价值。本项目从多样化生物文本特征表达的角度研究提高生物文本自动分类的准确性。研究包含三个方面的内容:一是提高自由文本中生物命名实体识别的准确率。二是从自由文本中挖掘蛋白质间交互(PPI)的关系模式,采用的方法包括:依据是否有蛋白质和表征关系的关键字或者隐性的交互信息,在单句内发现PPI信息;针对蛋白质交互信息的描述不在同一个单句中的问题,在相邻近的多句内发现PPI信息;利用搜索引擎和公共生物信息数据库等外部网络资源,挖掘蛋白质命名实体交互的表面模式,并利用bootstrap提升表面模式。三是集成多种不同类型的特征,包括生物命名实体、实体关系模式、词包法、触发词等,利用它们之间信息的互补性,更准确地表达文本的真实内容,从特征向量和分类器两个层面的集成提高生物文本自动分类的准确性。
中文关键词: 生物文本自动分类;文本表达;命名实体;蛋白质交互信息;
英文摘要:
英文关键词: Biomedical literature classifi;text representation;named entity;protein protein interaction;