有效且稳健的数据增强小样本学习 | 论文荐读 - 专知

会员服务 ·

0

有效且稳健的数据增强小样本学习 | 论文荐读

2022 年 3 月 25 日 学术头条

论文标题：

FlipDA: Effective and Robust Data Augmentation for Few-Shot Learning (ACL'22)

作者：

Jing Zhou*, Yanan Zheng*, Jie Tang, Jian Li, and Zhilin Yang

论文链接：

https://arxiv.org/abs/2108.06332

论文代码和数据：

https://github.com/zhouj8553/FlipDA

数据增强在图像识别等诸多领域被证明是行之有效的提升性能的方式，也是普遍用于提升小样本学习性能的方式。然而大多数以前的文本数据增强的方法存在严重缺陷：（1）对于包括替换、插入、删除等基本操作在内的大多数数据增强方法只能带来极少的边际收益，并且对于大多数的任务不奏效；（2）其次在很多情况下，使用数据增强方法进行小样本学习的性能非常不稳定，甚至进入故障模式（Failure Mode），即小样本学习的性能会因使用预训练模型以及执行任务的不同，而产生严重下降或者波动。这些缺陷都导致已有数据增强的方法无法在小样本学习的任务中实际使用。

为了应对这一挑战，我们在一种更加严苛的设定下，即困难任务的数据增强（即小样本自然语言理解）和强基线（即具有超过一个亿参数的预训练模型），提出了一种新的数据增强方法 FlipDA，它联合使用生成模型和分类器来生成标签翻转数据。FlipDA 关键是发现了生成标签翻转（Label-Flipped）数据对性能提升更重要而不是生成标签保留（Label-Preserved）的数据。FlipDA 实现了有效性和稳健性之间的良好折衷——它大大提高了许多任务的性能，同时不会对其他任务产生负面影响。

我们在包含大量困难小样本自然语言理解任务的基准数据集 SuperGLUE、以及不同规模的预训练模型（ALBERT和DeBERTa）上进行了大量实验。实验结果表明，相较于已有最优数据扩增方法，FlipDA 的平均性能有了显著提升；此外 FlipDA 在不同的预训练模型和不同任务中都表现出显著鲁棒性，避免了故障模式。

点击【阅读原文】查看paper

登录查看更多

6

相关内容

数据增强

数据增强在机器学习领域多指采用一些方法（比如数据蒸馏，正负样本均衡等）来提高模型数据集的质量，增强数据。

【CVPR2022】基于密集学习的半监督目标检测

【CVPR2022】基于密集学习的半监督目标检测

专知会员服务

20+阅读 · 2022年4月19日

【AAAI 2022】基于数据分布生成的可预测概念漂移适应

【AAAI 2022】基于数据分布生成的可预测概念漂移适应

专知会员服务

34+阅读 · 2022年1月12日

【ACL2021】可学习知识引导的事件因果关系识别数据增强方法

专知会员服务

35+阅读 · 2021年8月11日

【EMNLP 2020】融合自训练和自监督方法的无监督文本顺滑研究

【EMNLP 2020】融合自训练和自监督方法的无监督文本顺滑研究

专知会员服务

24+阅读 · 2020年10月18日

【EMNLP2020】开放领域对话的数据增广的方法：“对话蒸馏”

【EMNLP2020】开放领域对话的数据增广的方法：“对话蒸馏”

专知会员服务

30+阅读 · 2020年9月29日

克服小样本学习中灾难性遗忘方法研究

专知会员服务

51+阅读 · 2020年7月16日

【ICML2020】拉普拉斯正则化小样本学习，Laplacian Regularized Few-Shot Learning

【ICML2020】拉普拉斯正则化小样本学习，Laplacian Regularized Few-Shot Learning

专知会员服务

77+阅读 · 2020年6月28日

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

专知会员服务

51+阅读 · 2020年3月7日

【Amazon】使用预先训练的Transformer模型进行数据增强

【Amazon】使用预先训练的Transformer模型进行数据增强

专知会员服务

58+阅读 · 2020年3月6日

最新必读的8篇「小样本学习（few-shot learning）」2020顶会论文和代码

最新必读的8篇「小样本学习（few-shot learning）」2020顶会论文和代码

专知会员服务

239+阅读 · 2020年3月2日

ACL’22 | 为大模型定制的数据增强方法FlipDA，屠榜六大NLU 数据集！

ACL’22 | 为大模型定制的数据增强方法FlipDA，屠榜六大NLU 数据集！

夕小瑶的卖萌屋

1+阅读 · 2022年4月13日

P-tuning v2: 提示微调方法可在跨规模和任务上与精调方法媲美 | 论文荐读

P-tuning v2: 提示微调方法可在跨规模和任务上与精调方法媲美 | 论文荐读

学术头条

2+阅读 · 2022年4月11日

NLP数据增广不故障！清华大学提出FlipDA，轻松解决小样本任务｜ACL 2022

NLP数据增广不故障！清华大学提出FlipDA，轻松解决小样本任务｜ACL 2022

新智元

1+阅读 · 2022年4月9日

ACL 2022 | 清华大学、DeepMind等指出现有小样本学习方法并不稳定有效，提出评价框架

ACL 2022 | 清华大学、DeepMind等指出现有小样本学习方法并不稳定有效，提出评价框架

PaperWeekly

1+阅读 · 2022年4月2日

ACL2022 | 清华大学、DeepMind等指出现有小样本学习方法并不稳定有效，提出评价框架

ACL2022 | 清华大学、DeepMind等指出现有小样本学习方法并不稳定有效，提出评价框架

机器之心

1+阅读 · 2022年4月1日

小样本自然语言理解的基准测试FewNLU | 论文荐读

小样本自然语言理解的基准测试FewNLU | 论文荐读

学术头条

1+阅读 · 2022年3月23日

谷歌NIPS'21 | 如何让图神经网络更稳健？

谷歌NIPS'21 | 如何让图神经网络更稳健？

图与推荐

1+阅读 · 2022年3月22日

基于自回归填空的通用语言模型预训练 | 论文荐读

基于自回归填空的通用语言模型预训练 | 论文荐读

学术头条

5+阅读 · 2022年3月14日

哈工大｜NLP数据增强方法？我有15种

哈工大｜NLP数据增强方法？我有15种

哈工大SCIR

1+阅读 · 2021年10月13日

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

专知

127+阅读 · 2019年3月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

融入时空关系联合判别学习的地基云图序列分类方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于红外视频的行人检测基准数据集建立方法研究

国家自然科学基金

2+阅读 · 2013年12月31日

适应大数据处理的概率特征映射研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于变系数半参数模型的高维数据统计分析

国家自然科学基金

1+阅读 · 2013年12月31日

面板数据分位数回归中的模型选择问题研究

国家自然科学基金

0+阅读 · 2013年12月31日

相依样本下的经验似然推断

国家自然科学基金

0+阅读 · 2012年12月31日

面向高维小样本数据的集成分类方法研究

国家自然科学基金

3+阅读 · 2012年12月31日

稳健且有效的回归和变量选择方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

Active Few-Shot Learning with FASL

Arxiv

0+阅读 · 2022年4月20日

WuDaoMM: A large-scale Multi-Modal Dataset for Pre-training models

Arxiv

0+阅读 · 2022年4月19日

CILDA: Contrastive Data Augmentation using Intermediate Layer Knowledge Distillation

Arxiv

0+阅读 · 2022年4月15日

Fine-Grained Neural Network Explanation by Identifying Input Features with Predictive Information

Arxiv

10+阅读 · 2021年10月4日

Few-shot Learning for Multi-label Intent Detection

Arxiv

21+阅读 · 2020年10月11日

Attentive Graph Neural Networks for Few-Shot Learning

Attentive Graph Neural Networks for Few-Shot Learning

Arxiv

40+阅读 · 2020年7月14日

Meta-Learning with Dynamic-Memory-Based Prototypical Network for Few-Shot Event Detection

Arxiv

20+阅读 · 2019年10月25日

Few-shot Learning: A Survey

Few-shot Learning: A Survey

Arxiv

363+阅读 · 2019年4月10日

Learning to Propagate Labels: Transductive Propagation Network for Few-shot Learning

Arxiv

21+阅读 · 2018年12月25日

Learning Embedding Adaptation for Few-Shot Learning

Learning Embedding Adaptation for Few-Shot Learning

Arxiv

17+阅读 · 2018年12月10日

VIP会员

相关主题

小样本学习

相关VIP内容

【CVPR2022】基于密集学习的半监督目标检测

【CVPR2022】基于密集学习的半监督目标检测

专知会员服务

20+阅读 · 2022年4月19日

【AAAI 2022】基于数据分布生成的可预测概念漂移适应

【AAAI 2022】基于数据分布生成的可预测概念漂移适应

专知会员服务

34+阅读 · 2022年1月12日

【ACL2021】可学习知识引导的事件因果关系识别数据增强方法

专知会员服务

35+阅读 · 2021年8月11日

【EMNLP 2020】融合自训练和自监督方法的无监督文本顺滑研究

【EMNLP 2020】融合自训练和自监督方法的无监督文本顺滑研究

专知会员服务

24+阅读 · 2020年10月18日

【EMNLP2020】开放领域对话的数据增广的方法：“对话蒸馏”

【EMNLP2020】开放领域对话的数据增广的方法：“对话蒸馏”

专知会员服务

30+阅读 · 2020年9月29日

克服小样本学习中灾难性遗忘方法研究

专知会员服务

51+阅读 · 2020年7月16日

【ICML2020】拉普拉斯正则化小样本学习，Laplacian Regularized Few-Shot Learning

【ICML2020】拉普拉斯正则化小样本学习，Laplacian Regularized Few-Shot Learning

专知会员服务

77+阅读 · 2020年6月28日

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

专知会员服务

51+阅读 · 2020年3月7日

【Amazon】使用预先训练的Transformer模型进行数据增强

【Amazon】使用预先训练的Transformer模型进行数据增强

专知会员服务

58+阅读 · 2020年3月6日

最新必读的8篇「小样本学习（few-shot learning）」2020顶会论文和代码

最新必读的8篇「小样本学习（few-shot learning）」2020顶会论文和代码

专知会员服务

239+阅读 · 2020年3月2日

热门VIP内容

开通专知VIP会员享更多权益服务

《乌克兰无人机产业：志愿者与政策在构建新兴无人机产业中的协同作用》最新报告

《人工智能辅助决策中的数据可视化：系统性综述》

人工智能驱动弹药制造现代化：美国陆军转型之路

《敏捷作战部署中枢纽-辐条基地选址优化研究》80页

相关资讯

ACL’22 | 为大模型定制的数据增强方法FlipDA，屠榜六大NLU 数据集！

ACL’22 | 为大模型定制的数据增强方法FlipDA，屠榜六大NLU 数据集！

夕小瑶的卖萌屋

1+阅读 · 2022年4月13日

P-tuning v2: 提示微调方法可在跨规模和任务上与精调方法媲美 | 论文荐读

P-tuning v2: 提示微调方法可在跨规模和任务上与精调方法媲美 | 论文荐读

学术头条

2+阅读 · 2022年4月11日

NLP数据增广不故障！清华大学提出FlipDA，轻松解决小样本任务｜ACL 2022

NLP数据增广不故障！清华大学提出FlipDA，轻松解决小样本任务｜ACL 2022

新智元

1+阅读 · 2022年4月9日

ACL 2022 | 清华大学、DeepMind等指出现有小样本学习方法并不稳定有效，提出评价框架

ACL 2022 | 清华大学、DeepMind等指出现有小样本学习方法并不稳定有效，提出评价框架

PaperWeekly

1+阅读 · 2022年4月2日

ACL2022 | 清华大学、DeepMind等指出现有小样本学习方法并不稳定有效，提出评价框架

ACL2022 | 清华大学、DeepMind等指出现有小样本学习方法并不稳定有效，提出评价框架

机器之心

1+阅读 · 2022年4月1日

小样本自然语言理解的基准测试FewNLU | 论文荐读

小样本自然语言理解的基准测试FewNLU | 论文荐读

学术头条

1+阅读 · 2022年3月23日

谷歌NIPS'21 | 如何让图神经网络更稳健？

谷歌NIPS'21 | 如何让图神经网络更稳健？

图与推荐

1+阅读 · 2022年3月22日

基于自回归填空的通用语言模型预训练 | 论文荐读

基于自回归填空的通用语言模型预训练 | 论文荐读

学术头条

5+阅读 · 2022年3月14日

哈工大｜NLP数据增强方法？我有15种

哈工大｜NLP数据增强方法？我有15种

哈工大SCIR

1+阅读 · 2021年10月13日

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

专知

127+阅读 · 2019年3月31日

相关基金

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

融入时空关系联合判别学习的地基云图序列分类方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于红外视频的行人检测基准数据集建立方法研究

国家自然科学基金

2+阅读 · 2013年12月31日

适应大数据处理的概率特征映射研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于变系数半参数模型的高维数据统计分析

国家自然科学基金

1+阅读 · 2013年12月31日

面板数据分位数回归中的模型选择问题研究

国家自然科学基金

0+阅读 · 2013年12月31日

相依样本下的经验似然推断

国家自然科学基金

0+阅读 · 2012年12月31日

面向高维小样本数据的集成分类方法研究

国家自然科学基金

3+阅读 · 2012年12月31日

稳健且有效的回归和变量选择方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

相关论文

Active Few-Shot Learning with FASL

Arxiv

0+阅读 · 2022年4月20日

WuDaoMM: A large-scale Multi-Modal Dataset for Pre-training models

Arxiv

0+阅读 · 2022年4月19日

CILDA: Contrastive Data Augmentation using Intermediate Layer Knowledge Distillation

Arxiv

0+阅读 · 2022年4月15日

Fine-Grained Neural Network Explanation by Identifying Input Features with Predictive Information

Arxiv

10+阅读 · 2021年10月4日

Few-shot Learning for Multi-label Intent Detection

Arxiv

21+阅读 · 2020年10月11日

Attentive Graph Neural Networks for Few-Shot Learning

Attentive Graph Neural Networks for Few-Shot Learning

Arxiv

40+阅读 · 2020年7月14日

Meta-Learning with Dynamic-Memory-Based Prototypical Network for Few-Shot Event Detection

Arxiv

20+阅读 · 2019年10月25日

Few-shot Learning: A Survey

Few-shot Learning: A Survey

Arxiv

363+阅读 · 2019年4月10日

Learning to Propagate Labels: Transductive Propagation Network for Few-shot Learning

Arxiv

21+阅读 · 2018年12月25日

Learning Embedding Adaptation for Few-Shot Learning

Learning Embedding Adaptation for Few-Shot Learning

Arxiv

17+阅读 · 2018年12月10日

大家都在搜

CMU博士论文

无人机集群

久别重逢话双塔

国防科技创新

论文浅尝 - ICLR2020 | 通过神经逻辑归纳学习有效地解释

微信扫码咨询专知VIP会员