语料库构建——自然语言理解的基础

2017 年 8 月 21 日 计算机研究与发展 奚雪峰,等

汉语篇章微观话题结构建模与语料库构建

篇章话题结构分析是自然语言理解的前沿基础,而大规模高质量的适用于汉语篇章分析的语料资源缺乏,严重制约了相关篇章话题计算模型的研究.针对上述问题,首先研究了汉语篇章话题结构的理论表示体系.分析了主述位理论、英语修辞结构理论和宾州篇章树库体系的优势,结合汉语复句句群理论以及汉语自身特点,提出了一种基于主述位理论的汉语篇章微观话题结构表示方式,并借助微观话题链构建了汉语篇章话题结构表示体系.随后,在此基础上,采用自顶向下、后向搜索的标注策略和人机结合的语料库标注方式,构建了基于篇章微观话题表示体系的汉语篇章话题结构语料库(Chinese discourse topic corpus, CDTC).CDTC共包含500个文档,对其进行了详细统计分析并展示了语料库的标注情况.与宾州篇章树库体系、广义话题结构理论的对比表明,所提篇章微观话题结构表示体系在理论上具有一定的优越性,并且符合汉语特点;一致性检验表明CDTC能够充分体现汉语篇章话题分析问题本身的难度,并能够为相关研究提供语料资源支持.


点击“阅读全文” 可下载。

登录查看更多
11

相关内容

语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。应用于词典编纂,语言教学,传统语言研究,自然语言处理中基于统计或实例的研究等方面。
最新《多任务学习》综述,39页pdf
专知会员服务
263+阅读 · 2020年7月10日
专知会员服务
155+阅读 · 2020年4月21日
专知会员服务
199+阅读 · 2020年3月6日
【EMNLP2019教程】端到端学习对话人工智能,附237页PPT下载
专知会员服务
69+阅读 · 2019年11月25日
中文知识图谱构建技术以及应用的综述
专知会员服务
312+阅读 · 2019年10月19日
深度学习自然语言处理综述,266篇参考文献
专知会员服务
229+阅读 · 2019年10月12日
知识图谱的自动构建
DataFunTalk
55+阅读 · 2019年12月9日
面向新闻媒体的命名实体识别技术
PaperWeekly
18+阅读 · 2019年4月17日
赛尔笔记 | 多人对话语篇解析简介
哈工大SCIR
8+阅读 · 2019年3月2日
NLP Chinese Corpus:大规模中文自然语言处理语料
PaperWeekly
14+阅读 · 2019年2月18日
中文NLP用什么?中文自然语言处理的完整机器处理流程
人工智能头条
61+阅读 · 2018年9月5日
自然语言处理(NLP)知识结构总结
AI100
51+阅读 · 2018年8月17日
【知识图谱】 一个有效的知识图谱是如何构建的?
产业智能官
57+阅读 · 2018年4月5日
基于神经网络的高性能依存句法分析器
全球人工智能
8+阅读 · 2017年10月3日
NLP自然语言处理(二)——基础文本分析
乐享数据DataScientists
12+阅读 · 2017年2月7日
Arxiv
3+阅读 · 2019年10月31日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Arxiv
14+阅读 · 2018年5月15日
Arxiv
6+阅读 · 2018年3月12日
Arxiv
12+阅读 · 2018年1月12日
Arxiv
3+阅读 · 2017年12月18日
VIP会员
相关VIP内容
最新《多任务学习》综述,39页pdf
专知会员服务
263+阅读 · 2020年7月10日
专知会员服务
155+阅读 · 2020年4月21日
专知会员服务
199+阅读 · 2020年3月6日
【EMNLP2019教程】端到端学习对话人工智能,附237页PPT下载
专知会员服务
69+阅读 · 2019年11月25日
中文知识图谱构建技术以及应用的综述
专知会员服务
312+阅读 · 2019年10月19日
深度学习自然语言处理综述,266篇参考文献
专知会员服务
229+阅读 · 2019年10月12日
相关资讯
知识图谱的自动构建
DataFunTalk
55+阅读 · 2019年12月9日
面向新闻媒体的命名实体识别技术
PaperWeekly
18+阅读 · 2019年4月17日
赛尔笔记 | 多人对话语篇解析简介
哈工大SCIR
8+阅读 · 2019年3月2日
NLP Chinese Corpus:大规模中文自然语言处理语料
PaperWeekly
14+阅读 · 2019年2月18日
中文NLP用什么?中文自然语言处理的完整机器处理流程
人工智能头条
61+阅读 · 2018年9月5日
自然语言处理(NLP)知识结构总结
AI100
51+阅读 · 2018年8月17日
【知识图谱】 一个有效的知识图谱是如何构建的?
产业智能官
57+阅读 · 2018年4月5日
基于神经网络的高性能依存句法分析器
全球人工智能
8+阅读 · 2017年10月3日
NLP自然语言处理(二)——基础文本分析
乐享数据DataScientists
12+阅读 · 2017年2月7日
相关论文
Arxiv
3+阅读 · 2019年10月31日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Arxiv
14+阅读 · 2018年5月15日
Arxiv
6+阅读 · 2018年3月12日
Arxiv
12+阅读 · 2018年1月12日
Arxiv
3+阅读 · 2017年12月18日
Top
微信扫码咨询专知VIP会员