项目名称: 基于潜在语义对偶空间的新词翻译自动识别方法研究

项目编号: No.61462045

项目类型: 地区科学基金项目

立项/批准年度: 2015

项目学科: 计算机科学学科

项目作者: 王明文

作者单位: 江西师范大学

项目金额: 45万元

中文摘要: 在全球化时代的跨语言交流中,新词的出现已经成为语言处理研究领域不可避免的语言现象。在统计机器翻译中,新词自动识别、新词翻译、旧词新义和旧词新译给机器翻译系统带来了挑战,也很大程度上影响其多语言信息处理性能。如何自动识别新词,并有效消除旧词新义、旧词新译带来的歧义成为提高机器翻译系统性能的关键。本项目主要以我们已完成的国家自然科学基金项目中提出的双语潜在语义对偶空间的研究工作为基础,重点研究分析在线多语言文本中的新词(即新出现词语和赋以新义的原有词语)翻译问题,区别于传统的统计机器翻译方法,拟运用主流的子空间分析和潜在语义分析等理论,建立双语平行语料库中的双语潜在语义对应关系,构造潜在语义对偶空间;研究自动识别新词翻译的算法和未登录词识别算法;建立新词概率词典和更新已有词翻译概率,修正词汇化翻译概率;在理论上证明和实验中验证新模型和方法的有效性,为统计机器翻译研究提供一种新思路和理论依据。

中文关键词: 自然语言处理;统计机器翻译;新词翻译;潜在语义对偶空间

英文摘要: It is inevitable that the new words continuously emerge in cross-language communication in the era of globalization. Automatic identification and translation of new words, new meaning and new translation of the old words in statistical machine translation bring challenges to machine translation system. They also have great effect on performance of multilingual information processing. How to automatically detecting new words, disambiguate new meaning and new translation of new words is key to improve machine translation system performance. Based on bilingual latent semantic dual space proposed in National Natural Science Foundation of China project that we completed, the project focuses on translating new word in online multilingual text. The new word is defined as the emerging word or the old word is endowed with the new meaning. Unlike the traditional method of statistical machine translation, we will utilize the theories of subspace analysis and latent semantic analysis, model the bilingual latent semantic correspondence in bilingual parallel corpus and build latent semantic dual space. In the space, we will design automatic recognition algorithms of new word translation and identification algorithm of out-of-vocabulary. After matching the translation of new words and identifying the out-of-vocabulary, we will construct dictionary for new words with translation probability and update the probabilities of old word. Then we will refine terms translation probabilities. Furthermore, the new models and methods are proved in theory and verified in experiment, also become new ideas and theoretical basis for statistical machine translation.

英文关键词: Natural Language Processing;Statistical Machine Translation;New Word Translation;Latent Semantic Dual Space

成为VIP会员查看完整内容
0

相关内容

自然语言处理(NLP)是语言学,计算机科学,信息工程和人工智能的一个子领域,与计算机和人类(自然)语言之间的相互作用有关,尤其是如何对计算机进行编程以处理和分析大量自然语言数据 。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
12+阅读 · 2021年9月21日
专知会员服务
69+阅读 · 2021年5月21日
专知会员服务
29+阅读 · 2020年9月18日
基于多头注意力胶囊网络的文本分类模型
专知会员服务
76+阅读 · 2020年5月24日
面向司法案件的案情知识图谱自动构建
专知会员服务
125+阅读 · 2020年4月17日
学会原创 | 自然语言的语义表示学习方法与应用
中国人工智能学会
11+阅读 · 2019年3月7日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
python文本相似度计算
北京思腾合力科技有限公司
24+阅读 · 2017年11月6日
从点到线:逻辑回归到条件随机场
夕小瑶的卖萌屋
15+阅读 · 2017年7月22日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
0+阅读 · 2022年4月16日
Chinese Idiom Paraphrasing
Arxiv
0+阅读 · 2022年4月15日
Arxiv
17+阅读 · 2022年1月11日
小贴士
相关资讯
学会原创 | 自然语言的语义表示学习方法与应用
中国人工智能学会
11+阅读 · 2019年3月7日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
python文本相似度计算
北京思腾合力科技有限公司
24+阅读 · 2017年11月6日
从点到线:逻辑回归到条件随机场
夕小瑶的卖萌屋
15+阅读 · 2017年7月22日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员