项目名称: 基于图的统计机器翻译方法研究
项目编号: No.61003111
项目类型: 青年科学基金项目
立项/批准年度: 2011
项目学科: 金属学与金属工艺
项目作者: 巢文涵
作者单位: 北京航空航天大学
项目金额: 7万元
中文摘要: 在统计机器翻译中,除了语料库的规模之外,如何充分利用语料库至关重要。典型的机器翻译方法,其基本假设是:语料库中的句对都是高质量的翻译对,且句对之间互相独立,该假设过于严格。因此,本课题将针对此问题进行深入研究,试图放松该假设的强约束,基本思路是:基于图构造语料库中句对或者句子之间的内部联系,利用形成的拓扑结构,研究如何提高翻译模型的质量和解码的质量。具体包括:1、基于图的语料库质量评价模型和优化方法研究,力求使得高质量的句对在训练翻译模型时获得更大的比重,以提高翻译模型的质量;2、基于图的语料库选择方法研究,确保获得语料库的完备集合,保证翻译质量的同时,耗费最少的计算或人工翻译等资源;3、基于图的解码方法研究,利用语料库的内部结构来指导解码的完成,提高翻译的质量。本课题将阐明语料库的拓扑结构对机器翻译的影响机制,给出基于图的语料库优化和选择算法以及解码算法,形成基于图的统计机器翻译框架。
中文关键词: 统计机器翻译;图;语料库优化;语料库选择;解码
英文摘要:
英文关键词: