项目名称: 基于生成树库分析与生成一体化机器翻译模型研究
项目编号: No.60973062
项目类型: 面上项目
立项/批准年度: 2010
项目学科: 自动化技术、计算机技术
项目作者: 荀恩东
作者单位: 北京语言大学
项目金额: 28万元
中文摘要: 面向英汉机器翻译的生成树库是北京语言大学研发的语料库,树库中的生成树中包含了机器翻译所需要的深层次、细粒度的翻译知识:英语的句法结构、汉语译文生成模式和词汇短语的习惯翻译等,本研究以该树库作为主要训练语料,结合现有的大规模双语和单语语料,研究建立面向英汉机器翻译分析和生成一体化统计模型:将规则化知识和统计方法有机结合在一起,避免规则方法层次化翻译过程所造成的错误累计,和规则不易把控的问题;同时,该模型统计对象为带有句法信息的英文短语和对应译文生成模式,解决了现有机器统计翻译以词或者短语为统计对象所造成的模型泛化能力差的问题。另外,现有的短语翻译模型短语限定为连续词串,译文生成时,全局调序能力差,生成树库具有大量短语调序知识,依托本树库,译文生成时短语预调序也是本研究另外主要内容。
中文关键词: 机器翻译;生成树库;翻译调序;翻译模型;
英文摘要:
英文关键词: Machine Translation;Generation Treebank;Translation reorder;Translation Model;