GitTables：一个大型关系表语料库 (GitTables: A Large-Scale Corpus of Relational Tables) - 专知论文

会员服务 ·

0

语料库 · 语料 · 注释（编程） · 提取 · 基准 ·

2023 年 4 月 12 日

GitTables: A Large-Scale Corpus of Relational Tables

翻译：GitTables：一个大型关系表语料库

Madelon Hulsebos,Çağatay Demiralp,Paul Groth

The success of deep learning has sparked interest in improving relational table tasks, like data preparation and search, with table representation models trained on large table corpora. Existing table corpora primarily contain tables extracted from HTML pages, limiting the capability to represent offline database tables. To train and evaluate high-capacity models for applications beyond the Web, we need resources with tables that resemble relational database tables. Here we introduce GitTables, a corpus of 1M relational tables extracted from GitHub. Our continuing curation aims at growing the corpus to at least 10M tables. Analyses of GitTables show that its structure, content, and topical coverage differ significantly from existing table corpora. We annotate table columns in GitTables with semantic types, hierarchical relations and descriptions from Schema.org and DBpedia. The evaluation of our annotation pipeline on the T2Dv2 benchmark illustrates that our approach provides results on par with human annotations. We present three applications of GitTables, demonstrating its value for learned semantic type detection models, schema completion methods, and benchmarks for table-to-KG matching, data search, and preparation. We make the corpus and code available at https://gittables.github.io.

翻译：成功引发了全球范围内深度学习的热潮，提供了许多用于关系表任务（如数据准备和搜索）的表格表示模型，这些模型经过了在大型表格语料库上的训练。现有的表格语料库主要包含从HTML页面中提取的表格，这限制了表示离线数据库表格的能力。为了训练和评估高容量模型以及超越Web应用的应用，我们需要具有类似于关系型数据库表格的表格资源。本文介绍了GitTables，这是一个从GitHub中提取的100万个关系表。我们持续的整理旨在将这个语料库增长到至少1000万个表格。GitTables的分析表明，它的结构、内容和主题覆盖与现有的表格语料库有很大的不同。我们使用Schema.org和DBpedia为GitTables中的表格列注释了语义类型、层级关系和描述。我们在T2Dv2基准测试上对我们的注释管道进行评估，结果表明我们的方法提供了与人工注释相当的结果。我们提供了GitTables的三个应用程序，证明了它在学习语义类型检测模型、模式完成方法以及表格-KG匹配、数据搜索和准备基准方面的价值。我们在https://gittables.github.io上提供语料库和代码。

0

相关内容

语料库

语料库是语料库语言学研究的基础资源，也是经验主义语言研究方法的主要资源。应用于词典编纂，语言教学，传统语言研究，自然语言处理中基于统计或实例的研究等方面。

CVPR 2023 | Prophet: 用小模型启发大语言模型解决外部知识图像问答

CVPR 2023 | Prophet: 用小模型启发大语言模型解决外部知识图像问答

专知会员服务

54+阅读 · 2023年4月1日

自然语言处理顶会NAACL2022最佳论文出炉！

自然语言处理顶会NAACL2022最佳论文出炉！

专知会员服务

43+阅读 · 2022年6月30日

【ACL2020】Span-ConveRT：预训练对话表示小样本跨度提取，Span-ConveRT: Few-shot Span Extraction for Dialog with Pretrained Conversational Representations

【ACL2020】Span-ConveRT：预训练对话表示小样本跨度提取，Span-ConveRT: Few-shot Span Extraction for Dialog with Pretrained Conversational Representations

专知会员服务

17+阅读 · 2020年5月19日

50+篇《神经架构搜索NAS》2020论文合集

专知会员服务

61+阅读 · 2020年3月19日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

165+阅读 · 2020年3月18日

【2020新书】Python大数据处理，Mastering Large Datasets with Python，311页pdf

【2020新书】Python大数据处理，Mastering Large Datasets with Python，311页pdf

专知会员服务

196+阅读 · 2020年2月1日

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

专知会员服务

43+阅读 · 2020年1月28日

【NLP| 推荐文章】基于文本和知识库的语义搜索（Semantic search on text and knowledge bases）

专知会员服务

46+阅读 · 2019年11月24日

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

专知会员服务

160+阅读 · 2019年10月12日

最新BERT相关论文清单，BERT-related Papers

最新BERT相关论文清单，BERT-related Papers

专知会员服务

53+阅读 · 2019年9月29日

【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理

【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理

深度学习自然语言处理

18+阅读 · 2020年5月22日

RoBERTa中文预训练模型：RoBERTa for Chinese

RoBERTa中文预训练模型：RoBERTa for Chinese

PaperWeekly

57+阅读 · 2019年9月16日

GitHub超9千星：一个API调用27个NLP预训练模型

GitHub超9千星：一个API调用27个NLP预训练模型

新智元

17+阅读 · 2019年7月22日

最新NLP论文阅读列表，包括对话、问答、摘要、翻译等（附资源）

最新NLP论文阅读列表，包括对话、问答、摘要、翻译等（附资源）

THU数据派

11+阅读 · 2019年3月25日

LibRec 精选：推荐系统的常用数据集

LibRec 精选：推荐系统的常用数据集

LibRec智能推荐

17+阅读 · 2019年2月15日

自然语言处理常见数据集、论文最全整理分享

自然语言处理常见数据集、论文最全整理分享

深度学习与NLP

11+阅读 · 2019年1月26日

【代码资源】GAN | 七份最热GAN文章及代码分享（Github 1000+Stars）

【代码资源】GAN | 七份最热GAN文章及代码分享（Github 1000+Stars）

专知

13+阅读 · 2018年6月24日

【论文推荐】最新六篇自动问答相关论文—无监督迁移学习、综述、生成式问答、QDEE、可扩展文档理解

【论文推荐】最新六篇自动问答相关论文—无监督迁移学习、综述、生成式问答、QDEE、可扩展文档理解

专知

12+阅读 · 2018年5月9日

【论文推荐】最新八篇图像检索相关论文—三元组、深度特征图、判别式、卷积特征聚合、视觉-关系知识图谱、大规模图像检索

【论文推荐】最新八篇图像检索相关论文—三元组、深度特征图、判别式、卷积特征聚合、视觉-关系知识图谱、大规模图像检索

专知

33+阅读 · 2018年4月23日

【论文推荐】最新五篇命名实体识别（NER）相关论文—对抗学习、语料库、深度多任务学习、先验知识、跨语言语义

【论文推荐】最新五篇命名实体识别（NER）相关论文—对抗学习、语料库、深度多任务学习、先验知识、跨语言语义

专知

37+阅读 · 2018年2月21日

施工高温作用下CFRP板增强箱梁桥顶板疲劳损伤破坏模式与寿命预测研究

国家自然科学基金

0+阅读 · 2015年12月31日

高磷血症致胆固醇敏感器SCAP功能失调促进动脉粥样硬化的分子机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

下颌髁突软骨干细胞的特性及其促进骨关节炎状态下关节软骨修复再生的研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于短文本的知识库自动更新关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于VSC-HVDC的海上风电场并网系统概率风险评估模型及应用

国家自然科学基金

0+阅读 · 2013年12月31日

低切应力诱导的miR-200c通过靶标SIRT1调节内皮细胞炎症反应

国家自然科学基金

0+阅读 · 2012年12月31日

Erbin介导细胞周期异常与肿瘤发生的关系

国家自然科学基金

0+阅读 · 2012年12月31日

神经干细胞在炎性脱髓鞘疾病中的作用及机制

国家自然科学基金

0+阅读 · 2011年12月31日

miR-450b-5p诱导EMT及促进结直肠癌侵袭和转移的分子机制

国家自然科学基金

0+阅读 · 2011年12月31日

化石星系群成因的X射线研究

国家自然科学基金

0+阅读 · 2009年12月31日

A Corpus for Sentence-level Subjectivity Detection on English News Articles

Arxiv

0+阅读 · 2023年5月29日

QAMPARI: An Open-domain Question Answering Benchmark for Questions with Many Answers from Multiple Paragraphs

Arxiv

0+阅读 · 2023年5月29日

Reward Collapse in Aligning Large Language Models

Arxiv

0+阅读 · 2023年5月28日

RAMP: Retrieval and Attribute-Marking Enhanced Prompting for Attribute-Controlled Translation

Arxiv

0+阅读 · 2023年5月26日

Automatic Surround Camera Calibration Method in Road Scene for Self-driving Car

Arxiv

0+阅读 · 2023年5月26日

Automatic Creation of Named Entity Recognition Datasets by Querying Phrase Representations

Arxiv

0+阅读 · 2023年5月26日

A Multi-Scale Attentive Transformer for Multi-Instrument Symbolic Music Generation

Arxiv

0+阅读 · 2023年5月26日

Augmented Large Language Models with Parametric Knowledge Guiding

Arxiv

20+阅读 · 2023年5月8日

Entity Context and Relational Paths for Knowledge Graph Completion

Arxiv

29+阅读 · 2020年2月17日

Global Relation Embedding for Relation Extraction

Arxiv

10+阅读 · 2018年4月19日

VIP会员

文章信息

相关主题

注释（编程）

相关VIP内容

CVPR 2023 | Prophet: 用小模型启发大语言模型解决外部知识图像问答

CVPR 2023 | Prophet: 用小模型启发大语言模型解决外部知识图像问答

专知会员服务

54+阅读 · 2023年4月1日

自然语言处理顶会NAACL2022最佳论文出炉！

自然语言处理顶会NAACL2022最佳论文出炉！

专知会员服务

43+阅读 · 2022年6月30日

【ACL2020】Span-ConveRT：预训练对话表示小样本跨度提取，Span-ConveRT: Few-shot Span Extraction for Dialog with Pretrained Conversational Representations

【ACL2020】Span-ConveRT：预训练对话表示小样本跨度提取，Span-ConveRT: Few-shot Span Extraction for Dialog with Pretrained Conversational Representations

专知会员服务

17+阅读 · 2020年5月19日

50+篇《神经架构搜索NAS》2020论文合集

专知会员服务

61+阅读 · 2020年3月19日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

165+阅读 · 2020年3月18日

【2020新书】Python大数据处理，Mastering Large Datasets with Python，311页pdf

【2020新书】Python大数据处理，Mastering Large Datasets with Python，311页pdf

专知会员服务

196+阅读 · 2020年2月1日

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

专知会员服务

43+阅读 · 2020年1月28日

【NLP| 推荐文章】基于文本和知识库的语义搜索（Semantic search on text and knowledge bases）

专知会员服务

46+阅读 · 2019年11月24日

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

专知会员服务

160+阅读 · 2019年10月12日

最新BERT相关论文清单，BERT-related Papers

最新BERT相关论文清单，BERT-related Papers

专知会员服务

53+阅读 · 2019年9月29日

热门VIP内容

开通专知VIP会员享更多权益服务

新质生成式AI赋能产业变革的实践与路径

用于多模态大模型的离散标记化：全面综述

Nature综述：金融网络中的物理学

【CMU博士论文】通信高效且差分隐私的优化方法

相关资讯

【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理

【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理

深度学习自然语言处理

18+阅读 · 2020年5月22日

RoBERTa中文预训练模型：RoBERTa for Chinese

RoBERTa中文预训练模型：RoBERTa for Chinese

PaperWeekly

57+阅读 · 2019年9月16日

GitHub超9千星：一个API调用27个NLP预训练模型

GitHub超9千星：一个API调用27个NLP预训练模型

新智元

17+阅读 · 2019年7月22日

最新NLP论文阅读列表，包括对话、问答、摘要、翻译等（附资源）

最新NLP论文阅读列表，包括对话、问答、摘要、翻译等（附资源）

THU数据派

11+阅读 · 2019年3月25日

LibRec 精选：推荐系统的常用数据集

LibRec 精选：推荐系统的常用数据集

LibRec智能推荐

17+阅读 · 2019年2月15日

自然语言处理常见数据集、论文最全整理分享

自然语言处理常见数据集、论文最全整理分享

深度学习与NLP

11+阅读 · 2019年1月26日

【代码资源】GAN | 七份最热GAN文章及代码分享（Github 1000+Stars）

【代码资源】GAN | 七份最热GAN文章及代码分享（Github 1000+Stars）

专知

13+阅读 · 2018年6月24日

【论文推荐】最新六篇自动问答相关论文—无监督迁移学习、综述、生成式问答、QDEE、可扩展文档理解

【论文推荐】最新六篇自动问答相关论文—无监督迁移学习、综述、生成式问答、QDEE、可扩展文档理解

专知

12+阅读 · 2018年5月9日

【论文推荐】最新八篇图像检索相关论文—三元组、深度特征图、判别式、卷积特征聚合、视觉-关系知识图谱、大规模图像检索

【论文推荐】最新八篇图像检索相关论文—三元组、深度特征图、判别式、卷积特征聚合、视觉-关系知识图谱、大规模图像检索

专知

33+阅读 · 2018年4月23日

【论文推荐】最新五篇命名实体识别（NER）相关论文—对抗学习、语料库、深度多任务学习、先验知识、跨语言语义

【论文推荐】最新五篇命名实体识别（NER）相关论文—对抗学习、语料库、深度多任务学习、先验知识、跨语言语义

专知

37+阅读 · 2018年2月21日

相关论文

A Corpus for Sentence-level Subjectivity Detection on English News Articles

Arxiv

0+阅读 · 2023年5月29日

QAMPARI: An Open-domain Question Answering Benchmark for Questions with Many Answers from Multiple Paragraphs

Arxiv

0+阅读 · 2023年5月29日

Reward Collapse in Aligning Large Language Models

Arxiv

0+阅读 · 2023年5月28日

RAMP: Retrieval and Attribute-Marking Enhanced Prompting for Attribute-Controlled Translation

Arxiv

0+阅读 · 2023年5月26日

Automatic Surround Camera Calibration Method in Road Scene for Self-driving Car

Arxiv

0+阅读 · 2023年5月26日

Automatic Creation of Named Entity Recognition Datasets by Querying Phrase Representations

Arxiv

0+阅读 · 2023年5月26日

A Multi-Scale Attentive Transformer for Multi-Instrument Symbolic Music Generation

Arxiv

0+阅读 · 2023年5月26日

Augmented Large Language Models with Parametric Knowledge Guiding

Arxiv

20+阅读 · 2023年5月8日

Entity Context and Relational Paths for Knowledge Graph Completion

Arxiv

29+阅读 · 2020年2月17日

Global Relation Embedding for Relation Extraction

Arxiv

10+阅读 · 2018年4月19日

相关基金

施工高温作用下CFRP板增强箱梁桥顶板疲劳损伤破坏模式与寿命预测研究

国家自然科学基金

0+阅读 · 2015年12月31日

高磷血症致胆固醇敏感器SCAP功能失调促进动脉粥样硬化的分子机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

下颌髁突软骨干细胞的特性及其促进骨关节炎状态下关节软骨修复再生的研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于短文本的知识库自动更新关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于VSC-HVDC的海上风电场并网系统概率风险评估模型及应用

国家自然科学基金

0+阅读 · 2013年12月31日

低切应力诱导的miR-200c通过靶标SIRT1调节内皮细胞炎症反应

国家自然科学基金

0+阅读 · 2012年12月31日

Erbin介导细胞周期异常与肿瘤发生的关系

国家自然科学基金

0+阅读 · 2012年12月31日

神经干细胞在炎性脱髓鞘疾病中的作用及机制

国家自然科学基金

0+阅读 · 2011年12月31日

miR-450b-5p诱导EMT及促进结直肠癌侵袭和转移的分子机制

国家自然科学基金

0+阅读 · 2011年12月31日

化石星系群成因的X射线研究

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员