项目名称: 面向农业领域的维汉双语术语抽取的关键技术研究
项目编号: No.61163045
项目类型: 地区科学基金项目
立项/批准年度: 2012
项目学科: 计算机科学学科
项目作者: 张海军
作者单位: 新疆师范大学
项目金额: 49万元
中文摘要: 领域术语蕴涵了特定领域的专业知识,而双语术语承载着语言知识间的联系和映射,在机器翻译、跨语言信息检索等领域都有着重要的应用。本课题以维汉双语可比语料库为研究对象,实施面向农业领域的维汉双语术语抽取。可比语料的相关性决定着双语术语抽取的效率和效果,本课题拟设计一套双语类语义集合,在量化的基础上衡量语料间的可比性,以获取高质量的可比语料;为提高汉语领域术语的覆盖面和召回率,本课题拟采用重复模式提取方法构造候选术语集合,并应用海量语料作为汉语术语提取来源;对维吾尔语术语的检测,因其具有复杂的形态变化,拟构造一个有限状态机来进行术语边界检测;双语术语对齐以类语义集合为基础,使用统计框架来标注维汉双语的映射关系。在此基础上构造面向农业领域维汉双语新术语表,为新疆的农业信息化建设服务,并为其它领域维汉双语术语抽取提供有益借鉴。
中文关键词: 农业术语;重复模式;维吾尔语;统计学习框架;有限自动机
英文摘要:
英文关键词: agricultural terms;repeat;Uyghur;statistical framework;finite automation