Given two large lists of records, the task in entity resolution (ER) is to find the pairs from the Cartesian product of the lists that correspond to the same real world entity. Typically, passive learning methods on tasks like ER require large amounts of labeled data to yield useful models. Active Learning is a promising approach for ER in low resource settings. However, the search space, to find informative samples for the user to label, grows quadratically for instance-pair tasks making active learning hard to scale. Previous works, in this setting, rely on hand-crafted predicates, pre-trained language model embeddings, or rule learning to prune away unlikely pairs from the Cartesian product. This blocking step can miss out on important regions in the product space leading to low recall. We propose DIAL, a scalable active learning approach that jointly learns embeddings to maximize recall for blocking and accuracy for matching blocked pairs. DIAL uses an Index-By-Committee framework, where each committee member learns representations based on powerful transformer models. We highlight surprising differences between the matcher and the blocker in the creation of the training data and the objective used to train their parameters. Experiments on five benchmark datasets and a multilingual record matching dataset show the effectiveness of our approach in terms of precision, recall and running time. Code is available at https://github.com/ArjitJ/DIAL


翻译:根据两个庞大的记录清单,实体决议(ER)的任务是从与同一真实世界实体相对应的名单上的笛卡尔产品中找到与同名世界实体相对应的笛卡尔产品中的对子。一般而言,对像爱尔这样的任务的被动学习方法需要大量的贴标签数据才能产生有用的模型。积极学习是ER在低资源环境中的一个很有希望的方法。然而,搜索空间,为用户寻找信息样本以标签,发展象样的四面形任务,使得积极学习难于规模。以前的工作,在这一环境中,依靠手工制作的上游、预先训练的语言模型嵌入,或规则学习将卡斯特尔产品中不可能配对的对推走。这一阻塞步骤可能会在产品空间中的重要区域错失,导致低回顾。我们提议DIal,这是一个可扩展的积极学习方法,共同学习如何最大限度地回忆堵塞和准确匹配被阻隔的对子。DIAL使用一个指数-By-Commit框架,让每个委员会成员学习基于强大的变压模型的演示。我们强调匹配者与卡路德-D之间惊人的差异。在可更新的数据和可更新的数据和检索基准中,在使用的数据和精确度方法中显示目标。

0
下载
关闭预览

相关内容

零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Zero-Shot Learning相关资源大列表
专知
52+阅读 · 2019年1月1日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年6月2日
Arxiv
5+阅读 · 2020年3月26日
Arxiv
9+阅读 · 2019年4月19日
Arxiv
10+阅读 · 2017年12月29日
Arxiv
8+阅读 · 2014年6月27日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Zero-Shot Learning相关资源大列表
专知
52+阅读 · 2019年1月1日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Arxiv
0+阅读 · 2021年6月2日
Arxiv
5+阅读 · 2020年3月26日
Arxiv
9+阅读 · 2019年4月19日
Arxiv
10+阅读 · 2017年12月29日
Arxiv
8+阅读 · 2014年6月27日
Top
微信扫码咨询专知VIP会员