In this paper, we introduce the resources that we developed for Turkish dependency parsing, which include a novel manually annotated treebank (BOUN Treebank), along with the guidelines we adopted, and a new annotation tool (BoAT). The manual annotation process we employed was shaped and implemented by a team of four linguists and five Natural Language Processing (NLP) specialists. Decisions regarding the annotation of the BOUN Treebank were made in line with the Universal Dependencies (UD) framework as well as our recent efforts for unifying the Turkish UD treebanks through manual re-annotation. To the best of our knowledge, BOUN Treebank is the largest Turkish treebank. It contains a total of 9,761 sentences from various topics including biographical texts, national newspapers, instructional texts, popular culture articles, and essays. In addition, we report the parsing results of a state-of-the-art dependency parser obtained over the BOUN Treebank as well as two other treebanks in Turkish. Our results demonstrate that the unification of the Turkish annotation scheme and the introduction of a more comprehensive treebank lead to improved performance with regard to dependency parsing.


翻译:在本文中,我们介绍了我们为土耳其依赖性分析开发的资源,其中包括一个人工手动附加说明的树库(BOUN树库)以及我们通过的指导方针,以及一个新的说明工具(BoAT)。我们使用的手册说明过程是由四个语言学家和五个自然语言处理(NLP)专家组成的团队制定和实施的。关于BOUN树库说明的决定是根据普遍依赖性框架作出的,以及我们最近通过人工重新批注来统一土耳其的UD树库的努力。据我们所知,BOUN树库是土耳其最大的树库。它共有9 761项判决,涉及各种专题,包括简历、国家报纸、教学文本、大众文化文章和论文。此外,我们报告了在BOUN树库和另外两个土耳其树库中获得的州级依赖性分析师的评分结果。我们的结果表明,土耳其的注制计划得到了统一,并引入了更加全面的树库业绩导向。

0
下载
关闭预览

相关内容

人工智能的理论及实践 知识图谱,160页pdf
专知会员服务
101+阅读 · 2021年6月30日
【如何做研究】How to research ,22页ppt
专知会员服务
108+阅读 · 2021年4月17日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
CCF C类 | DSAA 2019 诚邀稿件
Call4Papers
6+阅读 · 2019年5月13日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
【TED】生命中的每一年的智慧
英语演讲视频每日一推
9+阅读 · 2019年1月29日
免费自然语言处理(NLP)课程及教材分享
深度学习与NLP
29+阅读 · 2019年1月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【音乐】Attention
英语演讲视频每日一推
3+阅读 · 2017年8月22日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
0+阅读 · 2021年11月5日
Arxiv
8+阅读 · 2020年5月2日
Arxiv
5+阅读 · 2018年1月23日
VIP会员
相关VIP内容
相关资讯
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
CCF C类 | DSAA 2019 诚邀稿件
Call4Papers
6+阅读 · 2019年5月13日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
【TED】生命中的每一年的智慧
英语演讲视频每日一推
9+阅读 · 2019年1月29日
免费自然语言处理(NLP)课程及教材分享
深度学习与NLP
29+阅读 · 2019年1月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【音乐】Attention
英语演讲视频每日一推
3+阅读 · 2017年8月22日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员