COLING 2022 | 将基于梯度相似度的自适应元学习方法用于小样本文本分类

会员服务 ·

COLING 2022 | 将基于梯度相似度的自适应元学习方法用于小样本文本分类

2022 年 9 月 26 日 PaperWeekly

©作者 | 回亭风

单位 | 北京邮电大学

研究方向 | 自然语言理解

论文标题：

Adaptive Meta-learner via Gradient Similarity for Few-shot Text Classification

收录会议：

COLING 2022

论文链接：

https://arxiv.org/abs/2209.04702

代码链接：

https://github.com/Tianyi-Lei/Adaptive-Meta-learner-via-Gradient-Similarity-for-Few-shot-Text-Classification

Abstract ＆ Intro

小样本文本分类是在少量训练样本设置下分辨文本。之前的方法采用基于优化的元学习来获取任务的分布。由于忽略了少量样本和复杂模型之间的匹配问题，这些方法面临着过拟合的问题。为了解决此问题，本文提出了基于梯度相似度的自适应元学习器（AMGS）的方法来改善模型的泛化性。具体来讲，AMGS 通过以下两个方面缓解过拟合：

1. 在 inner loop 中通过获取样本的潜在语义表示并结合内部的自监督辅助任务来改进模型泛化性；

2. 在 outer loop 中通过 AMGS 方法对基学习器获取的梯度加上约束。

此外，我们对整个框架中的正则化的影响进行了系统的分析，实验表明，在部分 benchmark 上 AMGS 方法取得了 SOTA 的结果。

为了解决过拟合问题，很多方法都基于一个原则：获取更多的 task distribution。前人的工作是将自监督任务和分类任务相结合，共同训练来缓解过拟合。本文也在 meta training 阶段使用了 mask token prediction (MTP) 的自监督任务。不幸的是，这种方式对于元学习来说不总是有提升的。

为了进一步解决过拟合问题，本文还基于另一个原则：通过特征选择分辨出好的特征和较差的特征来提升模型泛化性。在基于优化的元学习方法中，梯度包含了所有从 inner learner 向 outer learner 传递的所有信息，因此梯度可以当作特征来对待。如下图所示，其他的方法都是采用基学习器获取的全部的梯度而没有进行分辨和选择。

相比之下，本文的方法只需要比较模型在 query set 上 loss 的梯度和当前基学习器的梯度的相似度。随后，使用相应损失的梯度来帮助元学习器更快的适配到优化的空间中。这种方法能够在当前训练 batch 中选择出更有用的特征而不会增加计算复杂度，也不会因此丢失文本的信息。

本文的主要贡献如下：

1. 本文基于两个不同的原则提出了一个基于优化的元学习方法 AMGS 并且设计了元训练算法来解决小样本文本分类任务的过拟合问题；

2. 本文提出了自适应的元学习器来选择有用的梯度，抛弃无用梯度，来提升模型的泛化能力；

3. 实验表明，本文的方法比现有的基于优化的元学习 SOTA 方法表现更好。

Method

2.1 Overview

2.1.1 设置

小样本的数据包含 training episode 和 testing episode，其标签 y_train 和 y_test 是互斥的，即：

本文采用了 N-way-K-shot 的设置，对于每个任务，采样 N 个类别，每个类别 k+q 个样本，其中个样本作为 support set，个样本作为 query set。对于 testing episode 的采样，支持集与 training episode 一致，查询集只包含无标签的样本用作测试。

2.1.2 模型架构

本文采用 BERT 作为 backbone，如下图所示，包含一个主要任务（分类）和一个辅助任务（MTP）。

形式化来讲，模型参数可以分为下面三个：

其中第一个参数代表共有的 BERT 的参数，第二个为分类头的参数，第三个为 MTP 任务预测头的参数。

2.1.3 MTP任务

实际上就是 BERT 的 MLM 任务，作者在 mask 比例的选择上有所调整。作者认为 BERT 采用的 mask 比例，如果支持集中有较短的文本，很可能导致此文本中没有被 mask 掉的 token，这会使 MTP 失效。

作者更改了 mask 的比例，从 BERT 的 15% 改为 30%，且这 30% 中，原来 BERT 采用的 80%mask 掉，10% 不变，10% 替换为其他 token，作者将后两个均改为 0%。

2.2 AMGS

2.2.1 Collecting gradient for adaptive meta-learner

本文额外添加 MTP 辅助任务来获取到更丰富的 task distribution，通过多任务学习限制主任务（分类任务）的训练以提升基学习器的鲁棒性。这种限制避免了基学习器针对某一任务获取过多额外的特征来缓解过拟合。形式化来讲，总的损失函数如下：

本文取。支持集上的某一个任务的 inner update 过程可表示如下：

在查询集上，我们只需使用共享的 BERT 参数和分类头的参数进行推理即可，其优化的目标为：

2.2.2 Upgrade meta-learner with AMGS

作者通过梯度之间的余弦相似度来判别 query set 得到的梯度是否有用。公式如下：

如果上述相似度大于 0，则此梯度视为 positive gradient，表示查询集对于增强模型泛化性有益处，因此我们保留此查询集样本，outer update 的训练目标为：

如果上述相似度小于 0，则此梯度视为 negative gradient，我们移除此查询集的 loss 避免对模型造成不良影响，此时，outer update 的训练目标为：

算法的整体流程如下：

实验

3.1 主实验

作者又在 Banking77 上与 MAML 做对比，画出了训练的准确率曲线：

3.2 消融实验

作者也进行了可视化实验，实验表明本文的方法相比于 Reptile 来说各个类别之间的区分度更高。

总结

本文提出了 AMGS 框架来解决小样本文本分类问题，首先利用了自监督任务 MTP 来丰富 task distribution，这种方法能够缓解深度模型和少量样本之间不匹配造成的过拟合问题。其次在 outer update 阶段引入梯度相似度的概念对样本进行选择。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

登录查看更多

相关内容

学习器

关注 1

【ICML2022】基于自适应上下文池化的高效表示学习

专知会员服务

20+阅读 · 2022年7月9日

【KDD2021】图神经网络的自适应迁移学习

专知会员服务

66+阅读 · 2021年7月25日

【AAAI2021】基于图神经网络的文本语义匹配算法

专知会员服务

50+阅读 · 2021年1月30日

近期必读的六篇 ICML 2020【元学习（Meta Learning）】相关论文

专知会员服务

45+阅读 · 2020年9月25日

【IJCAI2020】通过双向对抗训练生成中间域样本提升半监督域自适应效果

专知会员服务

35+阅读 · 2020年9月17日

【ICML2020】基于贝叶斯元学习在关系图上进行小样本关系抽取

专知会员服务

38+阅读 · 2020年9月5日

《小样本元学习》2020最新综述论文

专知会员服务

173+阅读 · 2020年7月31日

【Salesforce】最新《小样本自然语言处理的元学习》综述论文

专知会员服务

80+阅读 · 2020年7月21日

【ICML 2020 】小样本学习即领域迁移

专知会员服务

78+阅读 · 2020年6月26日

【AAAI2020论文-清华大学】Enhanced Meta-Learning for Cross-lingual Named Entity Recognition with Minimal Resources，最小资源增强的元学习跨语言命名实体识别

专知会员服务

31+阅读 · 2019年11月17日

NeurIPS 2022 | 稀疏且鲁棒的预训练语言模型

PaperWeekly

0+阅读 · 2022年11月11日

ACL 2022 | 自描述网络的小样本命名实体识别

PaperWeekly

0+阅读 · 2022年8月13日

NAACL 2022 | 具有元重加权的鲁棒自增强命名实体识别技术

PaperWeekly

1+阅读 · 2022年8月2日

ACL 2022 | 分解的元学习小样本命名实体识别

PaperWeekly

1+阅读 · 2022年6月30日

小样本学习下的Transformer：基于谱聚类层和标签代理学习

PaperWeekly

5+阅读 · 2022年6月6日

NeurIPS 2021 | 通过寻找平坦最小值，克服小样本增量学习中的灾难性遗忘

PaperWeekly

2+阅读 · 2022年1月25日

东南大学提出条件自监督小样本学习方法，显著提升小样本分类准确率

PaperWeekly

4+阅读 · 2021年12月14日

赛尔原创@ACL Findings | 任务共舞，小样本场景下的多任务联合学习方法初探

哈工大SCIR

0+阅读 · 2021年11月16日

AAAI'21 | 对比自监督的图分类

图与推荐

8+阅读 · 2021年10月28日

论文浅尝 - ICML2020 | 通过关系图上的贝叶斯元学习进行少样本关系提取

开放知识图谱

16+阅读 · 2020年9月11日

基于神经网络的跨语言实体链指研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

大规模RFID系统标签的自适应高效准确识别策略研究

国家自然科学基金

0+阅读 · 2014年12月31日

学习理论中相似度量学习及相关课题的研究

国家自然科学基金

2+阅读 · 2013年12月31日

迁移学习在图像分类中的应用研究

国家自然科学基金

8+阅读 · 2013年12月31日

并行子空间学习方法及其大规模图像识别应用研究

国家自然科学基金

2+阅读 · 2012年12月31日

基于三元粗糙输出编码的带自适应惩罚因子的支持向量机多分类模型研究

国家自然科学基金

0+阅读 · 2012年12月31日

自适应最稀疏时频分析方法及其在机械故障诊断中的应用

国家自然科学基金

0+阅读 · 2012年12月31日

神经网络子空间学习算法的收敛性与鲁棒性

国家自然科学基金

1+阅读 · 2009年12月31日

多文种文档图像识别的多层次马尔可夫随机场模型研究

国家自然科学基金

1+阅读 · 2008年12月31日

Adaptive Prototypical Networks

Arxiv

0+阅读 · 2022年11月22日

Cross-Domain Few-Shot Graph Classification

Arxiv

13+阅读 · 2022年1月20日

Unsupervised Multi-Source Domain Adaptation for Person Re-Identification

Arxiv

14+阅读 · 2021年4月27日

Cross-Domain Adaptive Clustering for Semi-Supervised Domain Adaptation

Arxiv

19+阅读 · 2021年4月19日

Adaptive Attentional Network for Few-Shot Knowledge Graph Completion

Arxiv

17+阅读 · 2020年10月19日

AdarGCN: Adaptive Aggregation GCN for Few-Shot Learning

Arxiv

64+阅读 · 2020年2月28日

Knowledge Graph Transfer Network for Few-Shot Recognition

Arxiv

15+阅读 · 2019年11月21日

Enhanced Meta-Learning for Cross-lingual Named Entity Recognition with Minimal Resources

Arxiv

13+阅读 · 2019年11月14日

BERT for Joint Intent Classification and Slot Filling

Arxiv

12+阅读 · 2019年2月28日

Learning Embedding Adaptation for Few-Shot Learning

Arxiv

17+阅读 · 2018年12月10日

VIP会员