项目名称: 面向机器翻译的多词表达语义分析及应用研究

项目编号: No.61473294

项目类型: 面上项目

立项/批准年度: 2015

项目学科: 其他

项目作者: 陈钰枫

作者单位: 北京交通大学

项目金额: 83万元

中文摘要: 多词表达是自然语言中一类固定或半固定搭配的语言单元。其语义表示、有效抽取及正确翻译是自然语言处理中的难点。尤其针对汉语多词表达的抽取和汉英多词表达的语义结构差异分析的研究,近年来未有明显进展,已成为信息抽取和机器翻译等领域的瓶颈问题之一。因此,本项目将在以下方面进行深入研究和探索:(1)充分借鉴和利用已有的语言学资源,提出基于词向量表示的多词表达语义理解方法;(2)在此基础上,提出基于语义理解的汉语/汉英双语多词表达抽取模型,在联合推断框架下,使得多词表达抽取与分词、句法分析以及词对齐过程相辅相成;(3)构建基于语义计算的多词表达挖掘框架,从海量网络资源中挖掘新词,并抽取和过滤出可靠的多词表达翻译对;(4)最终面向机器翻译的应用,提出融合多词表达语义知识的机器翻译框架,从两个层次引入多词表达的语义知识来辅助翻译系统性能的提高。本项目开展的研究工作具有重要的理论意义和应用价值。

中文关键词: 自然语言处理;机器翻译;多词表达;语义分析;中文信息处理

英文摘要: Multiword expressions (MWEs) are idiomatic expressions with fixed or semifixed collocation in natural language, of which the semantic interpretation, effective extraction, and precise translation are difficulties in natural language processing. Especially the research about the extraction of Chinese MWE and the diversity between Chinese and English MWEs has been a major concern in information extraction and machine translation areas. Therefore, the proposed project would conduct the following research. First, based on available language resource, we plan to interpret latent semantic information of MWEs by word embeddings. Second, we propose a semantic-based Chinese and English bilingual MWE extraction method, which could give feedback to word segment,parsing and word alignment and improve overall performance. Third, we present a Web data mining framework for MWEs, which could discover new MWEs and select reliable MWE translations from the Web. And finally, we construct a MWEs-based translation system, which integrates the semantic information of MWEs to improve the translation performance. In summary, the research work carried out has important theoretical significance and application value.

英文关键词: natural language processing;machine translation;multiword expression;semantic analysis;Chinese information processing

成为VIP会员查看完整内容
1

相关内容

自然语言处理(NLP)是语言学,计算机科学,信息工程和人工智能的一个子领域,与计算机和人类(自然)语言之间的相互作用有关,尤其是如何对计算机进行编程以处理和分析大量自然语言数据 。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
自然语言处理中的文本表示研究
专知会员服务
55+阅读 · 2022年1月10日
EMNLP 2021 | 预训练跨语言模型中的大词表构建及使用
专知会员服务
20+阅读 · 2022年1月5日
专知会员服务
79+阅读 · 2021年10月15日
专知会员服务
55+阅读 · 2020年12月20日
稀缺资源语言神经网络机器翻译研究综述
专知会员服务
26+阅读 · 2020年12月2日
专知会员服务
189+阅读 · 2020年10月14日
专知会员服务
25+阅读 · 2020年9月9日
基于视觉的三维重建关键技术研究综述
专知会员服务
154+阅读 · 2020年5月1日
【北航】面向自然语言处理的预训练技术研究综述
专知会员服务
111+阅读 · 2020年4月23日
赛尔原创@EMNLP 2021 | 多语言和跨语言对话推荐
哈工大SCIR
0+阅读 · 2022年3月11日
【北大】知识图谱的关键技术及其智能应用
专知
111+阅读 · 2019年9月19日
面向新闻媒体的命名实体识别技术
PaperWeekly
18+阅读 · 2019年4月17日
一份超全的NLP语料资源集合及其构建现状
七月在线实验室
33+阅读 · 2019年1月16日
深度文本匹配在智能客服中的应用
AI100
18+阅读 · 2018年10月24日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
最全面的百度NLP自然语言处理技术解析
未来产业促进会
13+阅读 · 2017年11月12日
NLP(自然语言处理)扫盲
大数据和云计算技术
20+阅读 · 2017年7月9日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
Finite Entailment of UCRPQs over ALC Ontologies
Arxiv
0+阅读 · 2022年4月29日
Arxiv
0+阅读 · 2022年4月29日
Arxiv
14+阅读 · 2018年5月15日
Arxiv
25+阅读 · 2017年12月6日
小贴士
相关VIP内容
自然语言处理中的文本表示研究
专知会员服务
55+阅读 · 2022年1月10日
EMNLP 2021 | 预训练跨语言模型中的大词表构建及使用
专知会员服务
20+阅读 · 2022年1月5日
专知会员服务
79+阅读 · 2021年10月15日
专知会员服务
55+阅读 · 2020年12月20日
稀缺资源语言神经网络机器翻译研究综述
专知会员服务
26+阅读 · 2020年12月2日
专知会员服务
189+阅读 · 2020年10月14日
专知会员服务
25+阅读 · 2020年9月9日
基于视觉的三维重建关键技术研究综述
专知会员服务
154+阅读 · 2020年5月1日
【北航】面向自然语言处理的预训练技术研究综述
专知会员服务
111+阅读 · 2020年4月23日
相关资讯
赛尔原创@EMNLP 2021 | 多语言和跨语言对话推荐
哈工大SCIR
0+阅读 · 2022年3月11日
【北大】知识图谱的关键技术及其智能应用
专知
111+阅读 · 2019年9月19日
面向新闻媒体的命名实体识别技术
PaperWeekly
18+阅读 · 2019年4月17日
一份超全的NLP语料资源集合及其构建现状
七月在线实验室
33+阅读 · 2019年1月16日
深度文本匹配在智能客服中的应用
AI100
18+阅读 · 2018年10月24日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
最全面的百度NLP自然语言处理技术解析
未来产业促进会
13+阅读 · 2017年11月12日
NLP(自然语言处理)扫盲
大数据和云计算技术
20+阅读 · 2017年7月9日
相关基金
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员