项目名称: 基于三元组可比语料库的语言自动剖析技术应用研究
项目编号: No.61172102
项目类型: 面上项目
立项/批准年度: 2012
项目学科: 电子学与信息系统
项目作者: 肖健
作者单位: 中国电子信息产业发展研究院
项目金额: 63万元
中文摘要: 由于受到翻译腔的影响,中英平行语料库存在固有的扭斜的语言模型。显然,用这样的语料库训练的机器翻译、跨语言检索等自然语言处理系统也承袭了扭斜的语言模型,严重影响到系统的性能。本项目的目标是,采用可比语料库和语言自动剖析技术,使用统计、规则和语义相结合的方法,对由本族英语、中式英语和标准中文三元素所组成的三元组可比语料库进行统计分析研究;在此基础上,利用n-元词串、关键词簇和语义多词表达等自动抽取技术挖掘本族语言模型,实现改进和发展机器翻译等自然语言处理应用。利用带有本族英语专家修订标记的大规模翻译文本库,通过比较分析工具构建满足可比语料库取样框架要求的三元组可比语料库是本项目的特色。利用本项目算法提取的本族语言模型,将通过我院现有机器翻译系统的运行,测试和评估项目成果的有效性和实用性。项目前期,我院与英国Lancaster大学关于三元组可比语料库自动剖析的示范研究成果为本项目实施奠定了基础。
中文关键词: 三元组可比语料库;语义多词表达;自动语言剖析;关键词簇;
英文摘要:
英文关键词: 3-tuple comparable corpora;semantic multi-word expressions;automantic language profiling;key cluster;