Whether the goal is to estimate the number of people that live in a congressional district, to estimate the number of individuals that have died in an armed conflict, or to disambiguate individual authors using bibliographic data, all these applications have a common theme -- integrating information from multiple sources. Before such questions can be answered, databases must be cleaned and integrated in a systematic and accurate way, commonly known as structured entity resolution (record linkage or de-duplication). In this article, we review motivational applications and seminal papers that have led to the growth of this area. We review modern probabilistic and Bayesian methods in statistics, computer science, machine learning, database management, economics, political science, and other disciplines that are used throughout industry and academia in applications such as human rights, official statistics, medicine, citation networks, among others. Finally, we discuss current research topics of practical importance.


翻译:目标是估计居住在国会辖区的人数,估计在武装冲突中死亡的人数,或利用书目数据使个人作者产生混淆,所有这些应用都有一个共同的主题 -- -- 综合来自多种来源的信息,在回答这些问题之前,必须以系统、准确的方式清理和整合数据库,通常称为结构化实体解决办法(记录联系或重复)。在本篇文章中,我们审查了导致这一领域发展的积极性应用和基本文件。我们审查了统计、计算机科学、机器学习、数据库管理、经济学、政治科学以及整个产业和学术界应用人权、官方统计、医学、引证网络等其他应用中所使用的其他学科的现代概率和巴耶斯方法。最后,我们讨论了当前具有实际重要性的研究课题。

0
下载
关闭预览

相关内容

不同的数据提供方对同一个事物即实体 (Entity)可能会有不同的描述 (这 里的描述包括数据格式 、表示方法 等) ,每一个对实体的描述称为该实体的一个引用。实体解析,是指从一个“ 引用集合”中解析并映射到现实世界中的“ 实体”过程 。实体解析(Entity Resolution)又被称为记录链接(Record Linkage) 、对象识别(object Identification ) 、个体识别(Individual Identification) 、重复检测(Duplicate Detection)
【干货书】开放数据结构,Open Data Structures,337页pdf
专知会员服务
19+阅读 · 2021年9月17日
【干货书】机器学习速查手册,135页pdf
专知会员服务
127+阅读 · 2020年11月20日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【论文】图上的表示学习综述
机器学习研究会
15+阅读 · 2017年9月24日
Compression of Deep Learning Models for Text: A Survey
Arxiv
5+阅读 · 2019年11月22日
VIP会员
相关VIP内容
【干货书】开放数据结构,Open Data Structures,337页pdf
专知会员服务
19+阅读 · 2021年9月17日
【干货书】机器学习速查手册,135页pdf
专知会员服务
127+阅读 · 2020年11月20日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
相关资讯
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【论文】图上的表示学习综述
机器学习研究会
15+阅读 · 2017年9月24日
Top
微信扫码咨询专知VIP会员