Merging datafiles containing information on overlapping sets of entities is a challenging task in the absence of unique identifiers, and is further complicated when some entities are duplicated in the datafiles. Most approaches to this problem have focused on linking two files assumed to be free of duplicates, or on detecting which records in a single file are duplicates. However, it is common in practice to encounter scenarios that fit somewhere in between or beyond these two settings. We propose a Bayesian approach for the general setting of multifile record linkage and duplicate detection. We use a novel partition representation to propose a structured prior for partitions that can incorporate prior information about the data collection processes of the datafiles in a flexible manner, and extend previous models for comparison data to accommodate the multifile setting. We also introduce a family of loss functions to derive Bayes estimates of partitions that allow uncertain portions of the partitions to be left unresolved. The performance of our proposed methodology is explored through extensive simulations. Code implementing the methodology is available at https://github.com/aleshing/multilink .


翻译:在缺乏独特识别资料的情况下,包含重叠实体资料的合并数据档案是一项艰巨的任务,如果有些实体在数据档案中出现重复,则更为复杂。这个问题的多数方法侧重于将假定没有重复资料的两个文件联系起来,或者发现单个文件中的记录是重复的。然而,在实践中,常见的做法是遇到适合这两个环境之间或之外某处的情景。我们提议采用巴耶斯式办法,以总体设定多文件记录链接和重复检测。我们使用新版分区表示法,提出分区结构化的预示法,以灵活的方式纳入关于数据档案数据收集过程的先前信息,并将以前的比较数据模型扩大到多文件设置。我们还采用损失函数组合,得出使分区的不确定部分无法解决的海湾分区估计数。我们拟议方法的绩效通过广泛的模拟加以探讨。在https://github.com/aleshing/multlink上可以找到实施方法的代码。

0
下载
关闭预览

相关内容

专知会员服务
32+阅读 · 2021年9月16日
专知会员服务
11+阅读 · 2021年3月25日
专知会员服务
50+阅读 · 2020年12月14日
【新书】Python编程基础,669页pdf
专知会员服务
187+阅读 · 2019年10月10日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
91+阅读 · 2019年10月10日
异常检测论文大列表:方法、应用、综述
专知
125+阅读 · 2019年7月15日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
【TED】生命中的每一年的智慧
英语演讲视频每日一推
9+阅读 · 2019年1月29日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
8+阅读 · 2018年12月28日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Arxiv
8+阅读 · 2020年10月12日
Learning Memory-guided Normality for Anomaly Detection
Zero-Shot Object Detection
Arxiv
9+阅读 · 2018年7月27日
Arxiv
6+阅读 · 2018年3月19日
VIP会员
相关资讯
异常检测论文大列表:方法、应用、综述
专知
125+阅读 · 2019年7月15日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
【TED】生命中的每一年的智慧
英语演讲视频每日一推
9+阅读 · 2019年1月29日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
8+阅读 · 2018年12月28日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
相关论文
Arxiv
8+阅读 · 2020年10月12日
Learning Memory-guided Normality for Anomaly Detection
Zero-Shot Object Detection
Arxiv
9+阅读 · 2018年7月27日
Arxiv
6+阅读 · 2018年3月19日
Top
微信扫码咨询专知VIP会员