项目名称: 中文医学文本中关联信息提取方法研究
项目编号: No.30900329
项目类型: 青年科学基金项目
立项/批准年度: 2010
项目学科: 金属学与金属工艺
项目作者: 李昊旻
作者单位: 浙江大学
项目金额: 20万元
中文摘要: 关联信息提取的目的是从文本中自动提取概念及概念间语义关系。医疗文本中蕴含大量关联的临床信息,自动提取这些信息服务于各类临床信息系统是当前医疗信息化亟需的基础技术。由于自然语言的灵活性以及领域知识表达不足等原因,目前单纯依赖语法知识或者机器学习的方法都存在很大局限性,特别是在中文医学文本处理领域中这样的研究尚属空白。本研究的目的是寻求一种能够有效结合基于语法方法的高准确性和基于机器学习方法高灵活性的方法,探索性地提出一种子语言(Sublanguage)语法浅解析和模式识别机器学习方法相结合的混合算法。本项目将深入研究该混合算法过程中所涉及的关键方法和技术,针对中文医学语言文本处理这样一个相对薄弱的研究领域建立关联信息提取的有效方法,对两类临床文本(病历家族史的结构化信息提取、出院小结中时间关联信息提取)进行测试和评估来验证方法的有效性。
中文关键词: 医学语言处理;医学概念实体提取;概念实体关系提取;子语言;机器学习
英文摘要:
英文关键词: Medical Language Processing;Concept Entity Extract;Relation Extraction;Sublanguage Grammar;Machine Learning