项目名称: 面向科技监测的实体识别与关系抽取研究
项目编号: No.71403257
项目类型: 青年科学基金项目
立项/批准年度: 2014
项目学科: 管理科学
项目作者: 石崇德
作者单位: 中国科学技术信息研究所
项目金额: 22万元
中文摘要: 本项目主要面向科技监测这一实际应用,基于数据挖掘和自然语言处理技术,研究不同类型科技文献中的科技实体识别和实体关系抽取理论和关键技术,并实现一个高性能、高适应性的科技实体识别和实体关系抽取系统。本项目通过多特征融合训练进行科技领域关键实体的识别;联系深层语法理论,基于中心语驱动语法(HPSG)的多层次句法语义信息选择语义关系树,并通过树核函数计算子树相似度,实现基于支持向量机的关系抽取算法;以自举(bootstrapping)算法为基础,通过在小规模标注语料训练生成原始抽取模型,进一步对大规模未标注语料进行标注,自动分析和归纳新的关系抽取模板、总结相应的特征,迭代生成准确率更高、覆盖面更广的抽取模型。本项目的研究成果能够为科技监测中大规模文本信息挖掘奠定基础。
中文关键词: 科技监测;实体识别;关系抽取;术语识别;深度神经网络
英文摘要: This project is based on data mining and natural language processing to do research on theory and algorithms of sci-tech entity recognition and relation extraction in sci-tech trends analysis. We propose a unified learning algorithm to incorporate differe
英文关键词: scientific and technical infomation monitoring;entity recognition;relation extraction;terminology extraction;deep neural network