项目名称: 高精度的跨语言信息检索查询词自动翻译技术研究
项目编号: No.60970057
项目类型: 面上项目
立项/批准年度: 2010
项目学科: 自动化技术、计算机技术
项目作者: 姚建民
作者单位: 苏州大学
项目金额: 31万元
中文摘要: 互联网上有海量多语言文本资源,通过分析不同类型网页的内容、结构和链接特征,利用机器学习方法可以实现文档、句子和词汇级双语资源的自动获取。 以网络文本挖掘为手段,研究跨语言信息检索查询词翻译获取的方法,重点研究基于本地语料库和基于网络的翻译技术。 本地语料库以网络挖掘方式建设,有低成本、高效率、强时效性,广覆盖面等特色。对本地语料库词汇和语法覆盖度进行优化,实现最小时空开销下的高翻译质量。 对本地语料未覆盖的查询词,以网络挖掘的方法解决,并用以扩大本地资源库。 基于网络的翻译方法中利用共现信息查询扩展方法获取搜索引擎摘要,克服意译词的挖掘瓶颈;利用频度量度和邻接信息,在有噪声的、规模较小的双语摘要库上抽取高质量的候选单元,提高抽取效率;综合利用音译、表层模版、语义、频度-距离等特征进行译文的选择,提高翻译精确度。 研究成果可用于跨语言信息检索、机器翻译等领域。
中文关键词: WEB挖掘;跨语言信息检索;查询翻译;双语资源;未登录词
英文摘要:
英文关键词: Web mining;cross-language IR;query translation;bilingual resources;out-of-vocabulary terms