We propose the Tough Mentions Recall (TMR) metrics to supplement traditional named entity recognition (NER) evaluation by examining recall on specific subsets of "tough" mentions: unseen mentions, those whose tokens or token/type combination were not observed in training, and type-confusable mentions, token sequences with multiple entity types in the test data. We demonstrate the usefulness of these metrics by evaluating corpora of English, Spanish, and Dutch using five recent neural architectures. We identify subtle differences between the performance of BERT and Flair on two English NER corpora and identify a weak spot in the performance of current models in Spanish. We conclude that the TMR metrics enable differentiation between otherwise similar-scoring systems and identification of patterns in performance that would go unnoticed from overall precision, recall, and F1.


翻译:我们建议采用 " 尖锐点评 " (TMR)衡量标准,以补充传统名称实体识别(NER)评估,方法是回顾 " 牙点 " 提到的具体子集:隐名提法,在培训中未观察到其象征性或象征性/类型组合的代号或代号/型号/型号可变提法,在测试数据中提及具有多个实体类型的象征性序列,我们用最近五个神经结构对英文、西班牙文和荷兰公司进行了评估,以表明这些衡量标准的作用。我们发现BERT和Flair在两个英国净化公司的表现之间存在细微差别,并找出目前西班牙模式表现中的一个薄弱环节。我们的结论是,TMR衡量标准可以区分其他相似的分级系统,并查明不注意整体精确性、回顾性和F1的性能模式。我们的结论是,TMR衡量标准可以区分其他相似的分级系统。

0
下载
关闭预览

相关内容

预训练语言模型fine-tuning近期进展概述
专知会员服务
40+阅读 · 2021年4月9日
专知会员服务
77+阅读 · 2021年3月16日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
108+阅读 · 2020年5月3日
2019年机器学习框架回顾
专知会员服务
36+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
NLG任务评价指标BLEU与ROUGE
AINLP
20+阅读 · 2020年5月25日
ICML2019:Google和Facebook在推进哪些方向?
中国人工智能学会
5+阅读 · 2019年6月13日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
1+阅读 · 2021年5月17日
Arxiv
5+阅读 · 2019年4月21日
Arxiv
5+阅读 · 2018年1月30日
VIP会员
相关VIP内容
预训练语言模型fine-tuning近期进展概述
专知会员服务
40+阅读 · 2021年4月9日
专知会员服务
77+阅读 · 2021年3月16日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
108+阅读 · 2020年5月3日
2019年机器学习框架回顾
专知会员服务
36+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
相关资讯
NLG任务评价指标BLEU与ROUGE
AINLP
20+阅读 · 2020年5月25日
ICML2019:Google和Facebook在推进哪些方向?
中国人工智能学会
5+阅读 · 2019年6月13日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员