Data augmentation has recently seen increased interest in NLP due to more work in low-resource domains, new tasks, and the popularity of large-scale neural networks that require large amounts of training data. Despite this recent upsurge, this area is still relatively underexplored, perhaps due to the challenges posed by the discrete nature of language data. In this paper, we present a comprehensive and unifying survey of data augmentation for NLP by summarizing the literature in a structured manner. We first introduce and motivate data augmentation for NLP, and then discuss major methodologically representative approaches. Next, we highlight techniques that are used for popular NLP applications and tasks. We conclude by outlining current challenges and directions for future research. Overall, our paper aims to clarify the landscape of existing literature in data augmentation for NLP and motivate additional work in this area. We also present a GitHub repository with a paper list that will be continuously updated at https://github.com/styfeng/DataAug4NLP


翻译:最近,由于在低资源领域、新任务和需要大量培训数据的大规模神经网络的普及性方面开展了更多的工作,数据扩增最近引起人们对国家实验室方案的兴趣增加,这是因为在低资源领域、新任务和需要大量培训数据的大规模神经网络的普及性方面开展了更多的工作。尽管最近出现了这种激增,但这一领域仍然相对没有得到充分探讨,这或许是由于语言数据各自为政的性质所构成的挑战。在本文件中,我们以结构化的方式总结文献,对国家实验室方案的数据扩增情况进行了全面和统一的调查。我们首先为国家实验室方案引进并激励数据扩增,然后讨论具有主要方法代表性的方法。我们接着着重介绍了用于广受欢迎的国家实验室方案应用和任务的技术。我们最后概述了目前的挑战和未来研究的方向。总体而言,我们的文件旨在澄清国家实验室方案数据扩增方面现有文献的概况,并激励在这一领域开展更多的工作。我们还提出了一个GitHub数据库,其文件清单将在https://github.com/styfeng/DataAug4NP上不断更新。

1
下载
关闭预览

相关内容

数据增强在机器学习领域多指采用一些方法(比如数据蒸馏,正负样本均衡等)来提高模型数据集的质量,增强数据。
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
91+阅读 · 2019年10月16日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
已删除
将门创投
4+阅读 · 2018年7月31日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
A Survey on Data Augmentation for Text Classification
Arxiv
27+阅读 · 2020年12月24日
VIP会员
相关资讯
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
已删除
将门创投
4+阅读 · 2018年7月31日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Top
微信扫码咨询专知VIP会员