COLING 2022 | 将基于梯度相似度的自适应元学习方法用于小样本文本分类

2022 年 9 月 26 日 PaperWeekly


©作者 | 回亭风
单位 | 北京邮电大学
研究方向 | 自然语言理解

论文标题:
Adaptive Meta-learner via Gradient Similarity for Few-shot Text Classification
收录会议:
COLING 2022
论文链接:
https://arxiv.org/abs/2209.04702
代码链接:
https://github.com/Tianyi-Lei/Adaptive-Meta-learner-via-Gradient-Similarity-for-Few-shot-Text-Classification


Abstract & Intro
小样本文本分类是在少量训练样本设置下分辨文本。之前的方法采用基于优化的元学习来获取任务的分布。由于忽略了少量样本和复杂模型之间的匹配问题,这些方法面临着过拟合的问题。为了解决此问题,本文提出了基于梯度相似度的自适应元学习器(AMGS)的方法来改善模型的泛化性。具体来讲,AMGS 通过以下两个方面缓解过拟合: 

1. 在 inner loop 中通过获取样本的潜在语义表示并结合内部的自监督辅助任务来改进模型泛化性; 

2. 在 outer loop 中通过 AMGS 方法对基学习器获取的梯度加上约束。 

此外,我们对整个框架中的正则化的影响进行了系统的分析,实验表明,在部分 benchmark 上 AMGS 方法取得了 SOTA 的结果。 

为了解决过拟合问题,很多方法都基于一个原则:获取更多的 task distribution。前人的工作是将自监督任务和分类任务相结合,共同训练来缓解过拟合。本文也在 meta training 阶段使用了 mask token prediction (MTP) 的自监督任务。不幸的是,这种方式对于元学习来说不总是有提升的。

为了进一步解决过拟合问题,本文还基于另一个原则:通过特征选择分辨出好的特征和较差的特征来提升模型泛化性。在基于优化的元学习方法中,梯度包含了所有从 inner learner 向 outer learner 传递的所有信息,因此梯度可以当作特征来对待。如下图所示,其他的方法都是采用基学习器获取的全部的梯度而没有进行分辨和选择。

相比之下,本文的方法只需要比较模型在 query set 上 loss 的梯度和当前基学习器的梯度的相似度。随后,使用相应损失的梯度来帮助元学习器更快的适配到优化的空间中。这种方法能够在当前训练 batch 中选择出更有用的特征而不会增加计算复杂度,也不会因此丢失文本的信息。 

本文的主要贡献如下:

1. 本文基于两个不同的原则提出了一个基于优化的元学习方法 AMGS 并且设计了元训练算法来解决小样本文本分类任务的过拟合问题;

2. 本文提出了自适应的元学习器来选择有用的梯度,抛弃无用梯度,来提升模型的泛化能力;

3. 实验表明,本文的方法比现有的基于优化的元学习 SOTA 方法表现更好。



Method
2.1 Overview
2.1.1 设置
小样本的数据包含 training episode 和 testing episode,其标签 y_train 和 y_test 是互斥的,即:

本文采用了 N-way-K-shot 的设置,对于每个任务,采样 N 个类别,每个类别 k+q 个样本,其中 个样本 作为 support set, 个样本 作为 query set。对于 testing episode 的采样,支持集与 training episode 一致,查询集只包含无标签的样本用作测试。

2.1.2 模型架构

本文采用 BERT 作为 backbone,如下图所示,包含一个主要任务(分类)和一个辅助任务(MTP)。

形式化来讲,模型参数可以分为下面三个:


其中第一个参数代表共有的 BERT 的参数,第二个为分类头的参数,第三个为 MTP 任务预测头的参数。
2.1.3 MTP任务

实际上就是 BERT 的 MLM 任务,作者在 mask 比例的选择上有所调整。作者认为 BERT 采用的 mask 比例,如果支持集中有较短的文本,很可能导致此文本中没有被 mask 掉的 token,这会使 MTP 失效。

作者更改了 mask 的比例,从 BERT 的 15% 改为 30%,且这 30% 中,原来 BERT 采用的 80%mask 掉,10% 不变,10% 替换为其他 token,作者将后两个均改为 0%。

2.2 AMGS

2.2.1 Collecting gradient for adaptive meta-learner

本文额外添加 MTP 辅助任务来获取到更丰富的 task distribution,通过多任务学习限制主任务(分类任务)的训练以提升基学习器的鲁棒性。这种限制避免了基学习器针对某一任务获取过多额外的特征来缓解过拟合。形式化来讲,总的损失函数如下:


本文取 。支持集上的某一个任务 的 inner update 过程可表示如下:

在查询集上,我们只需使用共享的 BERT 参数和分类头的参数进行推理即可,其优化的目标为:

2.2.2 Upgrade meta-learner with AMGS

作者通过梯度之间的余弦相似度来判别 query set 得到的梯度是否有用。公式如下:

如果上述相似度大于 0,则此梯度视为 positive gradient,表示查询集对于增强模型泛化性有益处,因此我们保留此查询集样本,outer update 的训练目标为:

如果上述相似度小于 0,则此梯度视为 negative gradient,我们移除此查询集的 loss 避免对模型造成不良影响,此时,outer update 的训练目标为:

算法的整体流程如下:




实验
3.1 主实验

作者又在 Banking77 上与 MAML 做对比,画出了训练的准确率曲线:

3.2 消融实验


作者也进行了可视化实验,实验表明本文的方法相比于 Reptile 来说各个类别之间的区分度更高。





总结
本文提出了 AMGS 框架来解决小样本文本分类问题,首先利用了自监督任务 MTP 来丰富 task distribution,这种方法能够缓解深度模型和少量样本之间不匹配造成的过拟合问题。其次在 outer update 阶段引入梯度相似度的概念对样本进行选择。

更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·


登录查看更多
0

相关内容

【ICML2022】基于自适应上下文池化的高效表示学习
专知会员服务
19+阅读 · 2022年7月9日
专知会员服务
62+阅读 · 2021年7月25日
【AAAI2021】基于图神经网络的文本语义匹配算法
专知会员服务
47+阅读 · 2021年1月30日
《小样本元学习》2020最新综述论文
专知会员服务
172+阅读 · 2020年7月31日
【ICML 2020 】小样本学习即领域迁移
专知会员服务
77+阅读 · 2020年6月26日
NeurIPS 2022 | 稀疏且鲁棒的预训练语言模型
PaperWeekly
0+阅读 · 2022年11月11日
ACL 2022 | 自描述网络的小样本命名实体识别
PaperWeekly
0+阅读 · 2022年8月13日
ACL 2022 | 分解的元学习小样本命名实体识别
PaperWeekly
1+阅读 · 2022年6月30日
AAAI'21 | 对比自监督的图分类
图与推荐
8+阅读 · 2021年10月28日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
7+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年11月22日
Arxiv
13+阅读 · 2022年1月20日
AdarGCN: Adaptive Aggregation GCN for Few-Shot Learning
Arxiv
12+阅读 · 2019年2月28日
Learning Embedding Adaptation for Few-Shot Learning
Arxiv
16+阅读 · 2018年12月10日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
7+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员