Creating datasets manually by human annotators is a laborious task that can lead to biased and inhomogeneous labels. We propose a flexible, semi-automatic framework for labeling data for relation extraction. Furthermore, we provide a dataset of preprocessed sentences from the requirements engineering domain, including a set of automatically created as well as hand-crafted labels. In our case study, we compare the human and automatic labels and show that there is a substantial overlap between both annotations.


翻译:由人类说明员手工创建数据集是一项艰巨的任务,可能导致有偏向和不相容的标签。我们建议为关系提取数据标签建立一个灵活、半自动的框架。此外,我们提供一套要求工程领域预处理的句子数据集,包括一套自动创建和手工制作的标签。在我们的案例研究中,我们比较了人与自动标签,并表明两个说明之间有很大的重叠。

0
下载
关闭预览

相关内容

【2020新书】Python文本分析,104页pdf
专知会员服务
98+阅读 · 2020年12月23日
【2020新书】使用Kubernetes开发高级平台,519页pdf
专知会员服务
66+阅读 · 2020年9月19日
【Manning新书】现代Java实战,592页pdf
专知会员服务
99+阅读 · 2020年5月22日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
31+阅读 · 2019年10月16日
【新书】Python编程基础,669页pdf
专知会员服务
194+阅读 · 2019年10月10日
论文浅尝 | Global Relation Embedding for Relation Extraction
开放知识图谱
12+阅读 · 2019年3月3日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
已删除
将门创投
6+阅读 · 2017年11月27日
Arxiv
10+阅读 · 2018年4月19日
Arxiv
10+阅读 · 2017年7月4日
VIP会员
相关VIP内容
相关资讯
论文浅尝 | Global Relation Embedding for Relation Extraction
开放知识图谱
12+阅读 · 2019年3月3日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
已删除
将门创投
6+阅读 · 2017年11月27日
Top
微信扫码咨询专知VIP会员