项目名称: 基于半监督结构化学习的跨语言映射研究
项目编号: No.61173073
项目类型: 面上项目
立项/批准年度: 2012
项目学科: 自动化技术、计算机技术
项目作者: 赵铁军
作者单位: 哈尔滨工业大学
项目金额: 57万元
中文摘要: 语料资源缺乏的小语种语言的自然语言处理技术受到语料资源的限制而难以发展高精度的统计方法。当前的跨语言映射方法局限于双语对齐句对的词对齐结果,双语间标注的映射方法难以处理复杂对应关系、准确率低。为此,本课题提出了通过统计方法从语料中学习映射模型,并允许映射模型与目标模型彼此互相改进的跨语言映射框架。为了完成这一任务,本课题将结构化数据的自然语言处理任务的跨语言映射形式化为半监督结构化学习问题,利用半监督结构化学习方法,结合自然语言处理问题的任务特性,为跨语言映射问题提供新的解决方案。同时,本课题希望将语言的更抽象的属性引入到跨语言映射的半监督学习框架中,而不仅限于词对齐结果。这些抽象属性既包括语言学符号及其关系,也包括通过双语上下文统计得出的相似关系。这些属性使得双语语料中的更多信息可以得到利用,帮助提高跨语言映射方法的精度。
中文关键词: 半监督结构化学习;跨语言映射;自然语言结构表示;可比语料翻译知识获取;
英文摘要:
英文关键词: semi-supervised structured learning;cross-language projection;representation for natural language;translation acquisition from comparable corpus;