Data augmentation has attracted a lot of research attention in the deep learning era for its ability in alleviating data sparseness. The lack of data for unseen evaluation databases is exactly the major challenge for cross-domain text-to-SQL parsing. Previous works either require human intervention to guarantee the quality of generated data \cite{yu2018syntaxsqlnet}, or fail to handle complex SQL queries \cite{guo2018question}. This paper presents a simple yet effective data augmentation framework. First, given a database, we automatically produce a large amount of SQL queries based on an abstract syntax tree grammar \cite{yin2018tranx}. We require the generated queries cover at least 80\% of SQL patterns in the training data for better distribution matching. Second, we propose a hierarchical SQL-to-question generation model to obtain high-quality natural language questions, which is the major contribution of this work. Experiments on three cross-domain datasets, i.e., WikiSQL and Spider in English, and DuSQL in Chinese, show that our proposed data augmentation framework can consistently improve performance over strong baselines, and in particular the hierarchical generation model is the key for the improvement.
翻译:在深学习时代,数据扩增因其在减少数据稀少方面的能力而吸引了大量的研究关注。 缺乏用于隐性评估数据库的数据正是跨域文本到 SQL 解析的主要挑战。 以前的工程要求人类干预, 以保证生成数据的质量 \ cite{yu2018syntaxsqlnet}, 或者无法处理复杂的 SQL 查询 \ cite{guo2018 question} 。 本文展示了一个简单而有效的数据增强框架。 首先, 有了数据库, 我们自动产生大量基于抽象语法树语法的 SQL 查询。 我们要求生成的查询至少覆盖培训数据中至少80 ⁇ SQL 模式的质量, 以更好地匹配。 其次, 我们建议一个等级化 SQL 至 问题生成模型, 以获得高质量的自然语言问题, 这是这项工作的主要贡献。 在三个跨多域数据集上进行实验, 即英语中的 WikisQL 和 蜘蛛 。 我们提出的查询要覆盖至少80 QL, 在培训数据中, 的 持续 高级 建模和中国 建模中 DSQL 基级基准 显示我们 的 的 建模 的 。