项目名称: 基于文本中关系相似性的蛋白质交互作用自动识别研究
项目编号: No.61202132
项目类型: 青年科学基金项目
立项/批准年度: 2013
项目学科: 自动化技术、计算机技术
项目作者: 牛耘
作者单位: 南京航空航天大学
项目金额: 24万元
中文摘要: 蛋白质交互作用(PPI)信息是解决大量生物学难题的关键,并且隐含在海量生物医学文本中。尽管现有的基于监督方法的PPI文本自动识别研究已取得了很大进展,但目前的方法仍受限于对单句信息以及标注数据的依赖。本项目提出一种新的从关系相似性出发与半监督学习相结合进行PPI识别的方法。其核心思想是针对文本中蛋白质交互作用的关系描述在不同语言层次上所表现出的相似性,以大规模文本为依据,提取相应的上下文特征,根据相似性计算对PPI信息进行判断识别。主要的研究内容和目标为: 1)设计以语义聚类为基础,体现PPI上下文描述信息分布规律的向量空间模型表示,全面刻画交互关系;2)建立新的相似性模型,利用关系实例之间的共性联系区别目标对象和噪音,提高PPI的识别精度;3)实现相似性计算与基于图的半监督方法的有效结合,突破目前PPI研究中人工标注的瓶颈,扩展自动识别技术的实际应用范围。
中文关键词: 蛋白质交互关系;关系相似性;半监督模型;文本挖掘;自然语言处理
英文摘要: Knowledge of protein-protein interactions (PPI) is the key to the solutions of many difficult problems in biology. Currently, most PPI information is still available only in text. Although automatic PPI identification based on supervised learning algorith
英文关键词: protein-protein interaction;relational similarity;semi-supervised model;text mining;natural language processing