NAACL 2022 | 具有元重加权的鲁棒自增强命名实体识别技术

2022 年 8 月 2 日 PaperWeekly

©作者 | 回亭风

单位 | 北京邮电大学

研究方向 | 自然语言理解

自增强（self-augmentation）最近在提升低资源场景下的 NER 问题中得到了越来越多的关注，token 替换和表征混合是对于 NER 这类 token 级别的任务很有效的两种自增强方法。值得注意的是，自增强的方法得到的增强数据有潜在的噪声，先前的研究是对于特定的自增强方法设计特定的基于规则的约束来降低噪声。

本文提出了一个联合的 meta-reweighting 的策略来自然的进行整合。我们提出的方法可以很容易的扩展到其他自增强的方法中，实验表明，本文的方法可以有效的提升自增强方法的表现。

论文标题：

Robust Self-Augmentation for Named Entity Recognition with Meta Reweighting

论文链接：

https://arxiv.org/pdf/2204.11406.pdf

代码链接：

https://github.com/LindgeW/MetaAug4NER

Intro

命名实体识别旨在从非结构化文本中抽取预先定义的命名实体，是 NLP 的一个基础任务。近期，基于神经网络的方法推动 NER 任务不断取得更好的表现，但是其通常需要大规模的标注数据，这在真实场景中是不现实的，因此小样本设置的 NER 更符合现实需求。

数据自增强是一个小样本任务可行的解法，对于 token-level 的 NER 任务，token 替换和表征混合是常用的方法。但自增强也有局限性，我们需要为每种特定的自增强方法单独进行一些设计来降低自增强所带来的噪声，缓解噪声对效果的影响。本文提出了 meta-reweighting 框架将各类方法联合起来。

首先，放宽前人方法中的约束，得到更多伪样本。然而这样会产生更多低质量的增强样本，为此，我们提出 meta reweighting 策略来控制增强样本的质量。同时，使用 example reweighting 机制可以很自然的将两种方法结合在一起。实验表明，在小样本场景下，本文提出的方法可以有效提升数据自增强方法的效果，在全监督场景下本文的方法仍然有效。

Method

2.1 Baseline

本文的 basic 模型使用 BERT+BiLSTM+CRF 进行 NER 任务。首先给定输入序列，使用预训练的 BERT 得到每个 token 的表征。

然后使用 BiLSTM 进一步抽取上下文的特征：

最后解码过程使用 CRF 进行解码，先将得到的表征过一层线性层作为初始的标签分数，定义一个标签转移矩阵 T 来建模标签之间的依赖关系。对于一个标签序列，其分数计算如下：

其中 W、b 和 T 是模型的参数，最后使用维特比算法得到最佳的标签序列。训练的损失函数采用句子级别的交叉熵损失，对于给定的监督样本对 (X, Y)，其条件概率 P(Y|X) 计算如下：

其中为候选标签序列。

2.2 自增强方法

2.2.1 Token Substitution（TS）

token 替换是在原始的训练文本中对部分 token 进行替换得到伪样本。本文通过构建同义词词典来进行 token 替换，词典中既包含实体词也包含大量的普通词。遵循前人的设置，我们将所有属于同一实体类型的词当作同义词，并且添加到实体词典中，作者将其称为 entity mention substitution (EMS)。同时，我们也将 token 替换扩展到了“O”类型中，作者将其称为 normal word substitution (NWS)。作者使用 word2vec 的方法，在 wikidata 上通过余弦相似度找到 k 个最近邻的词作为“O”类型词的同义词。

这里作者设置了参数（此参数代表 EMS 的占比）来平衡 EMS 和 NWS 的比率，在 entity diversity 和 context diversity 之间达到更好的 trade-off。

2.2.2 Mixup for CRF

不同于 token 替换在原始文本上做增强，mixup 是在表征上进行处理，本文将 mixup 的方法扩展到了 CRF 层。形式上，给定一个样本对和，首先用 BERT 得到其向量表示和。然后通过参数将两个样本混合：

其中，n 为，从分布中采样。损失函数变为：

2.3 Meta Reweighting

有别于句子级的分类任务，NER 这类 token 级别的任务对于上下文高度敏感，一些低质量的增强数据会严重影响模型的效果。在本文中，作者使用 meta reweighting 策略为 mini batch 中的训练数据分配样本级的权重。

在少样本设置中，我们希望少量的标注样本能够引导增强样本进行模型参数更新。直觉上看，如果增强样本的数据分布和其梯度下降的方向与标注样本相似，说明模型能够从增强样本中学到更多有用的信息。

算法流程如下：

实验

3.1 实验设置

数据集采用 OntoNotes 4、OntoNotes 5、微博和 CoNLL03，所有数据集均采用 BIOES 标注方式。

对于 NWS，使用在 wikipedia 上训练的 GloVe 获取词向量，取 top5 最近邻的词作为同义词，取 0.2，在 Beta (7, 7) 中进行采样，评价指标使用 F1 值。

3.2 主实验

本文在小样本设置和全监督设置下都做了实验，结果如下：

3.3 分析

作者首先在 CoNLL03 5% 设置下做了增强数据量对实验结果的影响：

可以看出，在增强数据是原始训练数据的 5 倍之后，模型的效果就趋于平缓了，单纯的增加增强样本数并不能带来效果上持续的增长。

作者在三种小样本设置下对参数的影响：

可以看出在 20% 时效果最好，而且相比之下，只使用 NWS 比只使用 EMS 效果更好。可能的一个原因是实体词在文本中是稀疏的，NWS 能够产生更多不同的伪样本。

接着作者分析了 mixup 参数（Beta 分布参数）的取值：

因为本文 Beta 分布的两个参数都取，其期望总是 0.5，当增大时，分布的方差减小，采样更容易取到 0.5，实验结果表明当取 7 时整体效果最好。

最后作者还分析了 mixup 添加在不同位置的不同结果：

总结

本文提出了 meta reweighting 策略来增强伪样本的效果。是一篇很有启发性的文章，从梯度的角度出发，结合类似于 MAML 中 gradient by gradient 的思想，用标注样本来指导伪样本训练，为伪样本的损失加权，对伪样本的梯度下降的方向进行修正使其与标注样本更加相似。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

登录查看更多

相关内容

命名实体

关注 0

【ICML2022】MetAug:通过元特征增强的对比学习

专知会员服务

25+阅读 · 2022年5月20日

【EACL2021教程】无监督神经机器翻译，125页ppt

专知会员服务

24+阅读 · 2021年11月13日

基于预训练语言模型的文本生成研究综述

专知会员服务

82+阅读 · 2021年10月15日

【ICCV2021】基于Transformer 的神经绘画

专知会员服务

23+阅读 · 2021年9月20日

多样性文本生成任务的研究进展

专知会员服务

43+阅读 · 2021年4月23日

【EMNLP 2020】融合自训练和自监督方法的无监督文本顺滑研究

专知会员服务

24+阅读 · 2020年10月18日

【EMNLP2020】自然语言分类任务的自监督元学习

专知会员服务

30+阅读 · 2020年9月18日

【基于元学习的推荐系统】5篇相关论文

专知会员服务

88+阅读 · 2020年1月20日

【论文】使用编码器进行命名实体识别（TENER: Adapting Transformer Encoder for Named Entity Recognition）

专知会员服务

52+阅读 · 2019年12月28日

【AAAI2020论文-清华大学】Enhanced Meta-Learning for Cross-lingual Named Entity Recognition with Minimal Resources，最小资源增强的元学习跨语言命名实体识别

专知会员服务

31+阅读 · 2019年11月17日

ACL 2022 | 跨语言命名实体识别：无监督多任务多教师蒸馏模型

PaperWeekly

0+阅读 · 2022年7月12日

ACL 2022 | 序列标注的小样本NER：融合标签语义的双塔BERT模型

PaperWeekly

0+阅读 · 2022年7月6日

ACL 2022 | 分解的元学习小样本命名实体识别

PaperWeekly

1+阅读 · 2022年6月30日

NAACL 2022 | 机器翻译SOTA模型的蒸馏

PaperWeekly

1+阅读 · 2022年6月28日

中文NER任务实验小结：BERT-MRC的再优化

PaperWeekly

0+阅读 · 2021年12月29日

命名实体识别新SOTA：改进Transformer模型

AI科技评论

17+阅读 · 2019年11月26日

多项NLP任务新SOTA，Facebook提出预训练模型BART

机器之心

22+阅读 · 2019年11月4日

命名实体识别（NER）综述

AI研习社

66+阅读 · 2019年1月30日

基于Lattice LSTM的命名实体识别

微信AI

47+阅读 · 2018年10月19日

神经网络结构在命名实体识别（NER）中的应用

全球人工智能

11+阅读 · 2018年4月5日

短文本情感分析关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于海量语料自然标注信息的汉语自然语块分析

国家自然科学基金

0+阅读 · 2013年12月31日

基于语义分析的三维模型生成技术研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于表达残差稀疏性的遮挡人脸识别方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于语言理解的机器翻译译文自动评价方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

跨语言信息检索中的机器翻译研究

国家自然科学基金

2+阅读 · 2011年12月31日

基于半监督结构化学习的跨语言映射研究

国家自然科学基金

2+阅读 · 2011年12月31日

高精度的跨语言信息检索查询词自动翻译技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

Few-Shot Segmentation via Rich Prototype Generation and Recurrent Prediction Enhancement

Arxiv

0+阅读 · 2022年10月3日

Context-Tuning: Learning Contextualized Prompts for Natural Language Generation

Arxiv

0+阅读 · 2022年10月3日

Syntax-driven Data Augmentation for Named Entity Recognition

Arxiv

0+阅读 · 2022年10月1日

Few-Shot Knowledge Graph Completion

Arxiv

14+阅读 · 2019年11月26日

Enhanced Meta-Learning for Cross-lingual Named Entity Recognition with Minimal Resources

Arxiv

13+阅读 · 2019年11月14日

Emu: Enhancing Multilingual Sentence Embeddings with Semantic Specialization

Arxiv

10+阅读 · 2019年9月15日

KG-BERT: BERT for Knowledge Graph Completion

Arxiv

20+阅读 · 2019年9月7日

CAN-NER: Convolutional Attention Network forChinese Named Entity Recognition

Arxiv

16+阅读 · 2019年4月3日

Chinese NER Using Lattice LSTM

Arxiv

14+阅读 · 2018年5月15日

Reinforced Self-Attention Network: a Hybrid of Hard and Soft Attention for Sequence Modeling

Arxiv

16+阅读 · 2018年1月31日

VIP会员