VLDB会议全称International Conference on Very Large Date Bases,是数据库领域的顶级学术会议和另外两大数据库会议SIGMOD、ICD共同构成了数据库领域的三大顶级会议。本教程讲述数据增强机器学习相关主题。
近年来,我们看到了新的数据增强(DA)技术的发展,用于创建基于机器学习的解决方案所需的额外训练数据。在本教程中,我们将全面概述由数据管理社区开发的用于数据准备和数据集成的技术。除了调查利用规则、转换和外部知识创建额外训练数据的特定任务DA操作符之外,我们还探索了高级DA技术,如插值、条件生成和DA策略学习。最后,我们描述了数据挖掘与其他机器学习范式(如主动学习、预训练和弱监督学习)之间的联系。我们希望这一讨论能够为高质量数据集创建的整体数据增强框架的未来研究方向提供启示。