项目名称: 篇章结构分析及基于双语投射的篇章标注方法研究

项目编号: No.61202244

项目类型: 青年科学基金项目

立项/批准年度: 2013

项目学科: 计算机科学学科

项目作者: 鉴萍

作者单位: 北京理工大学

项目金额: 23万元

中文摘要: 自然语言处理经历了几十年的发展,分析的对象从字、词、短语到句子,自然而且必然地进入了篇章这一层面。在统计自然语言处理思想和语料库语言学盛行的今天,随着宾州篇章树库的发布,学者们开始尝试借助各种机器学习方法,通过对篇章关系的标注来解释篇章结构,引发了篇章结构分析的热潮。但是,由于篇章问题的复杂性,篇章关系分析的核心部分- - 隐式关系的判别,其准确率没有超过50%。这也是篇章分析处于起步阶段的最好证明。本项目首先将矛头指向这一难题。汉语方面,目前最大的问题是没有大规模的篇章语料库, 严重制约了汉语篇章的研究和应用。而篇章语料库的标注又无疑是一项难度大、费时费力的工程。在本项目中,我们希望借助汉英双语平行树库这一资源,通过对英语端的篇章分析,来得到汉语的篇章关系标记。无论将获得的汉语篇章语料作为种子语料,还是视其为一种篇章标注的框架,都将是未来构建大规模汉语(甚至其它语言)篇章语料的便捷途径。

中文关键词: 篇章分析;篇章标注;双语投射;机器翻译;

英文摘要: After decades of development, natural language processing has been seen her effort on characters, words, phrases and sentences. Now she begins her trek on discourse. In the age of statistical natural language processing and corpus linguistics, researchers set about interpreting the structure of discourse by labeling the relations between discourse units with the help of machine learning methods. Of course, this could not happen without the publication of a large scale corpus-the Penn Discourse TreeBank (PDTB). However, the performance is not as welcome as the task itself. The discourse related issues are so intricate that the precision of implicit relation analysis which is a core problem of discourse parsing is less than 50 percent until now. This is why we say that "discourse interpreting is in its infancy". This project aims to make efforts on this problem. For Chinese, it is less lucky than English. There is even no annotated discourse corpus in satisfied size, which makes relevant research difficult even impossible. One of the reasons is that the annotation of discourse resource is complicated and time-consuming. In this project, we bend ourselves to explore the short cut for corpus building-annotating the Chinese discourse corpus by language projection. No matter regarding the corpus we promise to construc

英文关键词: discourse analysis;discourse annotation;bitext projection;machine translation;

成为VIP会员查看完整内容
0

相关内容

【WWW2022】TaxoEnrich:通过结构语义表示的自监督分类法补全
专知会员服务
27+阅读 · 2021年10月6日
专知会员服务
61+阅读 · 2021年8月4日
专知会员服务
28+阅读 · 2021年6月25日
专知会员服务
36+阅读 · 2021年2月22日
实体关系抽取方法研究综述
专知会员服务
177+阅读 · 2020年7月19日
【北航】面向自然语言处理的预训练技术研究综述
专知会员服务
112+阅读 · 2020年4月23日
知识图谱构建-关系抽取和属性抽取
深度学习自然语言处理
26+阅读 · 2020年3月1日
论文浅尝 | 基于知识库的自然语言理解 01#
开放知识图谱
15+阅读 · 2019年2月22日
一份超全的NLP语料资源集合及其构建现状
七月在线实验室
33+阅读 · 2019年1月16日
中文NLP用什么?中文自然语言处理的完整机器处理流程
人工智能头条
61+阅读 · 2018年9月5日
自然语言处理(NLP)知识结构总结
AI100
51+阅读 · 2018年8月17日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
11+阅读 · 2019年6月19日
A Comprehensive Survey on Graph Neural Networks
Arxiv
21+阅读 · 2019年1月3日
小贴士
相关VIP内容
【WWW2022】TaxoEnrich:通过结构语义表示的自监督分类法补全
专知会员服务
27+阅读 · 2021年10月6日
专知会员服务
61+阅读 · 2021年8月4日
专知会员服务
28+阅读 · 2021年6月25日
专知会员服务
36+阅读 · 2021年2月22日
实体关系抽取方法研究综述
专知会员服务
177+阅读 · 2020年7月19日
【北航】面向自然语言处理的预训练技术研究综述
专知会员服务
112+阅读 · 2020年4月23日
相关资讯
知识图谱构建-关系抽取和属性抽取
深度学习自然语言处理
26+阅读 · 2020年3月1日
论文浅尝 | 基于知识库的自然语言理解 01#
开放知识图谱
15+阅读 · 2019年2月22日
一份超全的NLP语料资源集合及其构建现状
七月在线实验室
33+阅读 · 2019年1月16日
中文NLP用什么?中文自然语言处理的完整机器处理流程
人工智能头条
61+阅读 · 2018年9月5日
自然语言处理(NLP)知识结构总结
AI100
51+阅读 · 2018年8月17日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员