In database management, record linkage aims to identify multiple records that correspond to the same individual. This task can be treated as a clustering problem, in which a latent entity is associated with one or more noisy database records. However, in contrast to traditional clustering applications, a large number of clusters with a few observations per cluster is expected in this context. In this paper, we introduce a new class of prior distributions based on allelic partitions that is specially suited for the small cluster setting of record linkage. Our approach makes it straightforward to introduce prior information about the cluster size distribution at different scales, and naturally enforces sublinear growth of the maximum cluster size -known as the microclustering property. We also introduce a set of novel microclustering conditions in order to impose further constraints on the cluster sizes a priori. We evaluate the performance of our proposed class of priors using simulated data and three official statistics data sets, and show that our models provide competitive results compared to state-of-the-art microclustering models in the record linkage literature. Moreover, we compare the performance of different loss functions for optimal point estimation of the partitions using decision-theoretical based approaches recently proposed in the literature.


翻译:在数据库管理中,记录链接的目的是确定与同一个人相对应的多个记录。这项任务可以被视为一个集群问题,即潜伏实体与一个或多个吵闹的数据库记录相关联。然而,与传统的集群应用不同,预计在此情况下,有大量的集群,每个集群有少数观察意见。在本文件中,我们引入了一种新的先前分配类别,其基础是专门适合记录链接的小型集群设置。我们的方法是直接引入关于不同尺度的集群规模分布的先前信息,并自然地实施最大集群规模的亚线性增长(称为微集群属性)。我们还引入了一套新的微集群条件,以便对先前的集群规模施加进一步的限制。我们使用模拟数据和三个官方统计数据集评估了我们拟议的前类分类的性能,并表明我们的模型提供了与记录链接文献中最先进的微集群模型相比的竞争性结果。此外,我们比较了不同损失功能的性能,以便利用最近提出的基于决定-理论的文献方法对分区进行最佳估计。

0
下载
关闭预览

相关内容

专知会员服务
51+阅读 · 2020年12月14日
【干货书】机器学习速查手册,135页pdf
专知会员服务
127+阅读 · 2020年11月20日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
159+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
181+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
已删除
将门创投
4+阅读 · 2020年1月6日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Arxiv
0+阅读 · 2021年4月21日
A Survey on Deep Learning for Named Entity Recognition
Arxiv
26+阅读 · 2020年3月13日
Dynamic Transfer Learning for Named Entity Recognition
Arxiv
3+阅读 · 2018年12月13日
VIP会员
相关VIP内容
相关资讯
已删除
将门创投
4+阅读 · 2020年1月6日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Top
微信扫码咨询专知VIP会员