The goal of database question answering is to enable natural language querying of real-life relational databases in diverse application domains. Recently, large-scale datasets such as Spider and WikiSQL facilitated novel modeling techniques for text-to-SQL parsing, improving zero-shot generalization to unseen databases. In this work, we examine the challenges that still prevent these techniques from practical deployment. First, we present KaggleDBQA, a new cross-domain evaluation dataset of real Web databases, with domain-specific data types, original formatting, and unrestricted questions. Second, we re-examine the choice of evaluation tasks for text-to-SQL parsers as applied in real-life settings. Finally, we augment our in-domain evaluation task with database documentation, a naturally occurring source of implicit domain knowledge. We show that KaggleDBQA presents a challenge to state-of-the-art zero-shot parsers but a more realistic evaluation setting and creative use of associated database documentation boosts their accuracy by over 13.2%, doubling their performance.


翻译:数据库问题解答的目标是,使各种应用领域真实生活关系数据库的自然语言查询能够进行。最近,诸如蜘蛛和WikisQL等大型数据集为文本到SQL的剖析提供了新型模型技术,改进了对隐性数据库的零光概括化。在这项工作中,我们研究了仍然阻碍这些技术实际应用的挑战。首先,我们介绍了KaggleDBQA,一个新的真实网络数据库跨域评价数据集,有特定域的数据类型、原始格式和不受限制的问题。第二,我们重新审查了在现实生活环境中应用的文本到SQL分析器的评价任务选择。最后,我们用数据库文件来增加我们内部的评价任务,这是一个隐含域知识的自然来源。我们表明,KagleDBQA对最新零光分析器提出了挑战,但更现实的评估设置和创造性地使用相关的数据库文件提高了13.2%的准确度,使其业绩翻了一番。

0
下载
关闭预览

相关内容

【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
95+阅读 · 2019年12月4日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
已删除
将门创投
5+阅读 · 2018年10月16日
QuAC : Question Answering in Context
Arxiv
4+阅读 · 2018年8月21日
Arxiv
3+阅读 · 2017年12月23日
VIP会员
相关资讯
已删除
将门创投
5+阅读 · 2018年10月16日
Top
微信扫码咨询专知VIP会员