论文题目: 汉语复合名词短语语义关系知识库构建与自动识别研究
论文摘要: 汉语复合名词短语因其使用范围广泛、结构独特、内部语义复杂的特点,一直是语言学分析和中文信息处理领域的 重要研究对象。国内关于复合名词短语的语言资源极其匮乏,且现有知识库只研究名名复合形式的短语,包含动词的复合名词短 语的知识库构建仍处于空白阶段,同时现有的复合名词短语知识库大部分脱离了语境,没有句子级别的信息。针对这一现状,该文从多个领域搜集语料,建立了一套新的语义关系体系标注,构建了一个具有相当规模的带有句子信息的复合名词语义关系知识库。该库的标注重点是标注句子中复合名词短语的边界以及短语内部成分之间的语义关系,总共收录 27007 条句子。该文对标注后的知识库做了详细的计量统计分析。最后基于标注得到的知识库,该文使用基线模型对复合名词短语进行了自动定界和语义分类实验,并对实验结果和未来可能的改进方向做了总结分析。
作者简介: 邵艳秋,女,博士,北京语言大学信息科学学院教授,博士导师。研究方向为自然语言处理。2006年博士毕业于哈尔滨工业大学计算机科学与技术学院。2009年北京大学计算语言学研究所博士后流动站出站。中国中文信息学会计算语言学专业委员会委员。近年来,主持国家自然科学基金、教育部人文社科基金、国家语委“十二五”科研规划重点项目,博士后科学基金、校内重大专项等课题,入选北京语言大学中青年骨干基金支持计划。在国内外会议和期刊上发表论文50余篇。曾获黑龙江省科学技术二等奖、黑龙江省高校科学技术二等奖、北京大学信息科学技术学院优秀博士后一等奖等奖项。等