Tables on the Web contain a vast amount of knowledge in a structured form. To tap into this valuable resource, we address the problem of table retrieval: answering an information need with a ranked list of tables. We investigate this problem in two different variants, based on how the information need is expressed: as a keyword query or as an existing table ("query-by-table"). The main novel contribution of this work is a semantic table retrieval framework for matching information needs (keyword or table queries) against tables. Specifically, we (i) represent queries and tables in multiple semantic spaces (both discrete sparse and continuous dense vector representations) and (ii) introduce various similarity measures for matching those semantic representations. We consider all possible combinations of semantic representations and similarity measures and use these as features in a supervised learning model. Using two purpose-built test collections based on Wikipedia tables, we demonstrate significant and substantial improvements over state-of-the-art baselines.


翻译:网上的表格以结构化的形式包含大量知识。为了利用这一宝贵的资源,我们解决了表格检索问题:用列表排名列表回答信息需求;我们根据信息需求如何表达,用两种不同的变量来调查这一问题:作为关键词查询,或作为现有表格(“逐个表格”)。这项工作的主要新贡献是用语义表格检索框架,将信息需求(关键词或表格查询)与表格匹配。具体地说,我们(一)代表多个语义空间的查询和表格(离散和连续密度矢量表示),以及(二)为匹配这些语义表达提出各种类似措施。我们考虑所有可能的语义表达和类似措施的组合,并在监督的学习模式中将这些组合用作特征。我们使用维基百科表格上的两个目的设计的测试集,展示了与最新基线相比的重大和重大改进。

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
【文本匹配】Question Answering论文
深度学习自然语言处理
8+阅读 · 2020年4月20日
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
ICML2019:Google和Facebook在推进哪些方向?
专知
5+阅读 · 2019年6月13日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
基于PyTorch/TorchText的自然语言处理库
专知
28+阅读 · 2019年4月22日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
【泡泡一分钟】学习多视图相似度(ICCV-2017)
泡泡机器人SLAM
10+阅读 · 2018年10月7日
【泡泡一分钟】端到端的弱监督语义对齐
泡泡机器人SLAM
53+阅读 · 2018年4月5日
A survey on deep hashing for image retrieval
Arxiv
14+阅读 · 2020年6月10日
Learning to Focus when Ranking Answers
Arxiv
5+阅读 · 2018年8月8日
VIP会员
相关VIP内容
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
相关资讯
【文本匹配】Question Answering论文
深度学习自然语言处理
8+阅读 · 2020年4月20日
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
ICML2019:Google和Facebook在推进哪些方向?
专知
5+阅读 · 2019年6月13日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
基于PyTorch/TorchText的自然语言处理库
专知
28+阅读 · 2019年4月22日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
【泡泡一分钟】学习多视图相似度(ICCV-2017)
泡泡机器人SLAM
10+阅读 · 2018年10月7日
【泡泡一分钟】端到端的弱监督语义对齐
泡泡机器人SLAM
53+阅读 · 2018年4月5日
Top
微信扫码咨询专知VIP会员