Data augmentation has attracted a lot of research attention in the deep learning era for its ability in alleviating data sparseness. The lack of data for unseen evaluation databases is exactly the major challenge for cross-domain text-to-SQL parsing. Previous works either require human intervention to guarantee the quality of generated data \cite{yu2018syntaxsqlnet}, or fail to handle complex SQL queries \cite{guo2018question}. This paper presents a simple yet effective data augmentation framework. First, given a database, we automatically produce a large amount of SQL queries based on an abstract syntax tree grammar \cite{yin2018tranx}. We require the generated queries cover at least 80\% of SQL patterns in the training data for better distribution matching. Second, we propose a hierarchical SQL-to-question generation model to obtain high-quality natural language questions, which is the major contribution of this work. Experiments on three cross-domain datasets, i.e., WikiSQL and Spider in English, and DuSQL in Chinese, show that our proposed data augmentation framework can consistently improve performance over strong baselines, and in particular the hierarchical generation model is the key for the improvement.


翻译:在深学习时代,数据扩增因其在减少数据稀少方面的能力而吸引了大量的研究关注。 缺乏用于隐性评估数据库的数据正是跨域文本到 SQL 解析的主要挑战。 以前的工程要求人类干预, 以保证生成数据的质量 \ cite{yu2018syntaxsqlnet}, 或者无法处理复杂的 SQL 查询 \ cite{guo2018 question} 。 本文展示了一个简单而有效的数据增强框架。 首先, 有了数据库, 我们自动产生大量基于抽象语法树语法的 SQL 查询。 我们要求生成的查询至少覆盖培训数据中至少80 ⁇ SQL 模式的质量, 以更好地匹配。 其次, 我们建议一个等级化 SQL 至 问题生成模型, 以获得高质量的自然语言问题, 这是这项工作的主要贡献。 在三个跨多域数据集上进行实验, 即英语中的 WikisQL 和 蜘蛛 。 我们提出的查询要覆盖至少80 QL, 在培训数据中, 的 持续 高级 建模和中国 建模中 DSQL 基级基准 显示我们 的 的 建模 的 。

0
下载
关闭预览

相关内容

数据增强在机器学习领域多指采用一些方法(比如数据蒸馏,正负样本均衡等)来提高模型数据集的质量,增强数据。
【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
39+阅读 · 2020年11月20日
专知会员服务
45+阅读 · 2020年10月31日
【文本生成现代方法】Modern Methods for Text Generation
专知会员服务
44+阅读 · 2020年9月11日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
已删除
将门创投
3+阅读 · 2017年9月12日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年4月27日
Arxiv
38+阅读 · 2020年12月2日
Adversarial Mutual Information for Text Generation
Arxiv
13+阅读 · 2020年6月30日
Paraphrase Generation with Deep Reinforcement Learning
Bidirectional Attention for SQL Generation
Arxiv
4+阅读 · 2018年6月21日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
已删除
将门创投
3+阅读 · 2017年9月12日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Arxiv
0+阅读 · 2021年4月27日
Arxiv
38+阅读 · 2020年12月2日
Adversarial Mutual Information for Text Generation
Arxiv
13+阅读 · 2020年6月30日
Paraphrase Generation with Deep Reinforcement Learning
Bidirectional Attention for SQL Generation
Arxiv
4+阅读 · 2018年6月21日
Top
微信扫码咨询专知VIP会员