Recently, considerable literature has grown up around the theme of few-shot named entity recognition (NER), but little published benchmark data specifically focused on the practical and challenging task. Current approaches collect existing supervised NER datasets and re-organize them to the few-shot setting for empirical study. These strategies conventionally aim to recognize coarse-grained entity types with few examples, while in practice, most unseen entity types are fine-grained. In this paper, we present Few-NERD, a large-scale human-annotated few-shot NER dataset with a hierarchy of 8 coarse-grained and 66 fine-grained entity types. Few-NERD consists of 188,238 sentences from Wikipedia, 4,601,160 words are included and each is annotated as context or a part of a two-level entity type. To the best of our knowledge, this is the first few-shot NER dataset and the largest human-crafted NER dataset. We construct benchmark tasks with different emphases to comprehensively assess the generalization capability of models. Extensive empirical results and analysis show that Few-NERD is challenging and the problem requires further research. We make Few-NERD public at https://ningding97.github.io/fewnerd/.


翻译:最近,大量文献围绕几个点名实体的识别(NER)主题发展起来,但很少公布具体侧重于实际和富有挑战性任务的基准数据。目前的方法收集了现有的受监督的NER数据集,并将其重新组织为实证研究的几张照片。这些战略通常旨在承认粗糙的实体类型,并举几个例子,而实际上,大多数不见的实体类型是细微的。在本文中,我们介绍了少见的NERD,这是一个规模庞大的、有附加说明的少发号的人类光栅数据集,分为8个粗略和66个精细微的实体类型。很少的NERD由维基百科的188 238个句、4 601 160个单词组成,每个单词都作为两个层次实体类型的背景或一部分加以说明。据我们所知,这是第一个少发的NER数据集和最大的人造的NER数据集。我们用不同的重点来建立基准任务,以全面评估模型的一般化能力。广泛的实证结果和分析表明,在MOF-NERD/MMMMMMMMMMMMMD/MMMDMDMDMDMDSMD需要进一步研究。

1
下载
关闭预览

相关内容

【干货书】机器学习Primer,122页pdf
专知会员服务
107+阅读 · 2020年10月5日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
96+阅读 · 2020年5月31日
因果图,Causal Graphs,52页ppt
专知会员服务
248+阅读 · 2020年4月19日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
IJCAI2020信息抽取相关论文合集
AINLP
6+阅读 · 2020年6月16日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
笔记 | Deep active learning for named entity recognition
黑龙江大学自然语言处理实验室
24+阅读 · 2018年5月27日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
A Survey on Deep Learning for Named Entity Recognition
Arxiv
26+阅读 · 2020年3月13日
Arxiv
5+阅读 · 2019年11月22日
Multi-Grained Named Entity Recognition
Arxiv
6+阅读 · 2019年6月20日
Dynamic Transfer Learning for Named Entity Recognition
Arxiv
3+阅读 · 2018年12月13日
VIP会员
相关VIP内容
【干货书】机器学习Primer,122页pdf
专知会员服务
107+阅读 · 2020年10月5日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
96+阅读 · 2020年5月31日
因果图,Causal Graphs,52页ppt
专知会员服务
248+阅读 · 2020年4月19日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
相关资讯
IJCAI2020信息抽取相关论文合集
AINLP
6+阅读 · 2020年6月16日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
笔记 | Deep active learning for named entity recognition
黑龙江大学自然语言处理实验室
24+阅读 · 2018年5月27日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员