数据增强是通过转换为机器学习人工创建训练数据,是机器学习学科中一个广泛研究的研究领域。虽然它对于提高模型的泛化能力很有用,但它也可以解决许多其他挑战和问题,从克服有限数量的训练数据到规范目标到限制数据量用于保护隐私。基于对数据增强的目标和应用的精确描述以及现有的分类法作品,该调查涉及用于文本分类的数据增强方法,旨在实现简洁和研究人员和从业人员的综合概述。根据分类法,我们将100多种方法分为12不同的分组,并提供最先进的参考资料,阐述哪些方法非常有前途。最后,研究给出了可能构成未来工作基石的观点。
https://www.zhuanzhi.ai/paper/6a3ab7686edb4fbbc9b7fe15b7a349a4