项目名称: 利用机器学习改进统计机器翻译的研究
项目编号: No.60903138
项目类型: 青年科学基金项目
立项/批准年度: 2010
项目学科: 机械、仪表工业
项目作者: 刘洋
作者单位: 清华大学
项目金额: 17万元
中文摘要: 目前,主流的统计机器翻译方法面临以下挑战:翻译模型难以表示和容纳更丰富的与翻译过程密切相关的知识,训练算法从真实文本中获取的翻译规则数量巨大且质量良莠不齐,以及解码算法难以在庞大的搜索空间中高效准确地定位最优候选译文。作为一个新兴研究领域,统计机器翻译边缘性和交叉性的特点决定了它需要从其它学科借鉴新的成功理论来获得进一步的发展空间。我们认为机器学习能够为统计机器翻译提供帮助,因为两者之间存在紧密的联系。从机器学习的角度来看,统计机器翻译是一个结构化预测的问题。本项目希望在统计机器翻译和机器学习之间找到恰当的结合点,利用机器学习最新的研究成果(图模型、结构化半监督学习和近似推断)来为统计机器翻译当前所面临的挑战提供解决方案,从而进一步推动统计机器翻译的研究发展。开展此项目的研究,不仅可以让统计机器翻译和机器学习获得共同发展,同时能够帮助提高机器翻译系统的性能来为社会大众提供更好的服务。
中文关键词: 统计机器翻译;机器学习;图模型;结构化半监督学习;近似推断
英文摘要:
英文关键词: statistical machine translatio;machine learning;structured prediction;graphical model;approximate inference