随着数据的不断收集、存储和分析,人们需要更高效、可扩展且健壮的方法来处理这些数据。表示学习,即利用神经网络获得数据对象的通用向量表示(嵌入)的实践,已被证明在处理各种数据形态(如图像和文本)的应用中非常有效。在这篇论文中,我们探讨了这种成功如何扩展到结构化数据的形态,例如表格,我们称之为表格表示学习(TRL)。学习到的表格嵌入能够支持数据管理和分析中的各种下游任务,例如数据验证和准备。
在这篇论文中,我们展示了对此主题探索的结果,从用于自动表格理解的神经嵌入方法开始。表格的语义,特别是其列的语义,决定了可以对其执行的操作。为此,我们贡献了Sherlock,这是一个用于以可扩展、健壮且准确的方式检测表格列的语义类型的深度学习模型。我们还展示了一个系统,AdaTyper,它能够有效且高效地将此类语义类型检测模型适应于未见过的数据分布和新的语义类型。 尽管具备适应功能,神经嵌入模型只有在训练数据充分代表上下文时才有效。由于现有的TRL模型通常是在从网页提取的表格上预训练的,这些表格并不能很好地代表现实世界中的表格,我们引入了GitTables:一个从存储在GitHub上的CSV文件中提取的大型关系表格语料库。GitTables中的表格更类似于典型的数据库表格,并且丰富了列的语义。最后,我们展示了Observatory,这是一个框架和工具,用于分析学习到的表格嵌入在关系表格的结构和内容特征方面捕获了什么。通过Observatory,我们识别了现有模型及其生成的表格嵌入的优点和缺点。 论文最后总结了我们的发现,并围绕表格表示学习的开放挑战和未来机会进行了讨论。