项目名称: 汉英篇章衔接对齐资源构建与分析研究

项目编号: No.61502149

项目类型: 青年科学基金项目

立项/批准年度: 2016

项目学科: 计算机科学学科

项目作者: 李艳翠

作者单位: 河南科技学院

项目金额: 21万元

中文摘要: 篇章衔接性分析是理解篇章的基础,英语和汉语在指代、省略和连接等主要衔接方式上存在差异。现有汉英平行语料主要进行了句子对齐,缺乏衔接信息的对齐,导致国内外对于汉英篇章衔接对齐分析研究很少,从而影响了融合衔接信息的机器翻译等相关应用。本项目旨在创建汉英篇章衔接对齐资源,研究衔接自动对齐分析技术,并将此应用于融合衔接信息的机器翻译。首先,研究汉英篇章衔接对齐标注策略,建立包含指代、省略和连接对齐信息的汉英篇章衔接对齐资源;其次,基于所建资源,结合汉英衔接特点,采取不同的分析策略和处理方法,实现汉英衔接对齐分析平台;最后,将衔接信息融入机器翻译系统中,从提高机器翻译性能和改善评测两方面考察衔接信息的作用。本项目开展的研究工作对于推进汉英篇章语义分析研究具有重要的意义。

中文关键词: 篇章衔接性;语料库标注;对齐分析;机器翻译;省略

英文摘要: Discourse cohesion analysis plays a critical role in discourse understanding, in which there exist differences in cohesion between English and Chinese, including anaphor, ellipsis and connective. However, there are few studies in discourse cohesion alignment between Chinese and English, due to the lack of publicly available parallel resource annotated with discourse cohesion on both language sides. Consequently, few studies have been seen in applying discourse cohesion in natural language process tasks, such as machine translation...To this end, this project aims to create a Chinese-English parallel resource with discourse cohesion annotation on both sides and their alignment. This is done in three-level levels. First, we explore proper strategies in annotating discourse cohesion, including anaphor, ellipsis, and connectives. Second, we propose targeted approach to automatically recognize anaphor, ellipses, and connectives in both Chinese and English, and consequently learn the alignment of cohesion between the two languages. Third and finally, we propose several approaches to effectively apply bilingual discourse cohesion in statistical machine translation (SMT) and SMT evaluation...To sum up, The project has important significance for promoting discourse semantic analysis between English and Chinese.

英文关键词: Discourse Cohesion;Corpus Annotation;Alignment Analysis;Machine Translation;Ellipsis

成为VIP会员查看完整内容
2

相关内容

多语言语音识别声学模型建模方法最新进展
专知会员服务
32+阅读 · 2022年2月7日
自然语言处理中的文本表示研究
专知会员服务
55+阅读 · 2022年1月10日
面向任务型的对话系统研究进展
专知会员服务
56+阅读 · 2021年11月17日
专知会员服务
59+阅读 · 2021年5月28日
专知会员服务
37+阅读 · 2021年5月14日
知识增强的文本生成研究进展
专知会员服务
96+阅读 · 2021年3月6日
专知会员服务
26+阅读 · 2020年9月9日
论文浅尝 | 面向视觉常识推理的层次语义增强方向图网络
面向任务型的对话系统研究进展
专知
0+阅读 · 2021年11月17日
一文读懂依存句法分析
AINLP
16+阅读 · 2019年4月28日
一文了解成分句法分析
人工智能头条
15+阅读 · 2019年4月24日
优质中文NLP资源集合,做项目一定用得到!
数据派THU
18+阅读 · 2019年3月3日
一份超全的NLP语料资源集合及其构建现状
七月在线实验室
33+阅读 · 2019年1月16日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
11+阅读 · 2019年6月19日
小贴士
相关VIP内容
多语言语音识别声学模型建模方法最新进展
专知会员服务
32+阅读 · 2022年2月7日
自然语言处理中的文本表示研究
专知会员服务
55+阅读 · 2022年1月10日
面向任务型的对话系统研究进展
专知会员服务
56+阅读 · 2021年11月17日
专知会员服务
59+阅读 · 2021年5月28日
专知会员服务
37+阅读 · 2021年5月14日
知识增强的文本生成研究进展
专知会员服务
96+阅读 · 2021年3月6日
专知会员服务
26+阅读 · 2020年9月9日
相关资讯
论文浅尝 | 面向视觉常识推理的层次语义增强方向图网络
面向任务型的对话系统研究进展
专知
0+阅读 · 2021年11月17日
一文读懂依存句法分析
AINLP
16+阅读 · 2019年4月28日
一文了解成分句法分析
人工智能头条
15+阅读 · 2019年4月24日
优质中文NLP资源集合,做项目一定用得到!
数据派THU
18+阅读 · 2019年3月3日
一份超全的NLP语料资源集合及其构建现状
七月在线实验室
33+阅读 · 2019年1月16日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员