Recent studies in deep learning have shown significant progress in named entity recognition (NER). Most existing works assume clean data annotation, yet a fundamental challenge in real-world scenarios is the large amount of noise from a variety of sources (e.g., pseudo, weak, or distant annotations). This work studies NER under a noisy labeled setting with calibrated confidence estimation. Based on empirical observations of different training dynamics of noisy and clean labels, we propose strategies for estimating confidence scores based on local and global independence assumptions. We partially marginalize out labels of low confidence with a CRF model. We further propose a calibration method for confidence scores based on the structure of entity labels. We integrate our approach into a self-training framework for boosting performance. Experiments in general noisy settings with four languages and distantly labeled settings demonstrate the effectiveness of our method. Our code can be found at https://github.com/liukun95/Noisy-NER-Confidence-Estimation


翻译:最近的深层学习研究表明,在命名实体的识别(NER)方面取得了显著进展。大多数现有工程都假定了清洁数据说明,但在现实世界情景中,一个根本的挑战就是来自各种来源(如假、弱或遥远的注释)的大量噪音。这项工作在一个响亮、贴有标签、有校准信心估计的环境下进行NER研究。根据对噪音和清洁标签的不同培训动态的实证观察,我们根据当地和全球独立假设提出了估算信任分数的战略。我们部分地排除了使用通用报告格式模型的低信任标签。我们进一步提出了基于实体标签结构的信任分数校准方法。我们将我们的方法纳入提高绩效的自我培训框架。用四种语言和远贴有标签的环境进行的一般噪音实验证明了我们的方法的有效性。我们的代码可以在 https://github.com/liukun95/Noisy-NER-Confidence-Estimation上找到。

2
下载
关闭预览

相关内容

专知会员服务
46+阅读 · 2021年4月24日
剑桥大学《数据科学: 原理与实践》课程,附PPT下载
专知会员服务
47+阅读 · 2021年1月20日
专知会员服务
50+阅读 · 2020年12月14日
专知会员服务
52+阅读 · 2020年9月7日
迁移学习简明教程,11页ppt
专知会员服务
107+阅读 · 2020年8月4日
Yann Lecun 纽约大学《深度学习(PyTorch)》课程(2020)PPT
专知会员服务
178+阅读 · 2020年3月16日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
ICLR2019最佳论文出炉
专知
11+阅读 · 2019年5月6日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
深度学习医学图像分析文献集
机器学习研究会
17+阅读 · 2017年10月13日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
1+阅读 · 2021年6月3日
Arxiv
0+阅读 · 2021年6月1日
q-Space Novelty Detection with Variational Autoencoders
Arxiv
5+阅读 · 2018年4月13日
VIP会员
相关VIP内容
专知会员服务
46+阅读 · 2021年4月24日
剑桥大学《数据科学: 原理与实践》课程,附PPT下载
专知会员服务
47+阅读 · 2021年1月20日
专知会员服务
50+阅读 · 2020年12月14日
专知会员服务
52+阅读 · 2020年9月7日
迁移学习简明教程,11页ppt
专知会员服务
107+阅读 · 2020年8月4日
Yann Lecun 纽约大学《深度学习(PyTorch)》课程(2020)PPT
专知会员服务
178+阅读 · 2020年3月16日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
ICLR2019最佳论文出炉
专知
11+阅读 · 2019年5月6日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
深度学习医学图像分析文献集
机器学习研究会
17+阅读 · 2017年10月13日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员