Data integration is essential across diverse domains, from historical records to biomedical research, facilitating joint statistical inference. A crucial initial step in this process involves merging multiple data sources based on matching individual records, often in the absence of unique identifiers. When the datasets are networks, this problem is typically addressed through graph matching methodologies. For such cases, auxiliary features or covariates associated with nodes or edges can be instrumental in achieving improved accuracy. However, most existing graph matching techniques do not incorporate this information, limiting their performance against non-identifiable and erroneous matches. To overcome these limitations, we propose two novel covariate-assisted seeded graph matching methods, where a partial alignment for a set of nodes, called seeds, is known. The first one solves a quadratic assignment problem (QAP) over the whole graph, while the second one only leverages the local neighborhood structure of seed nodes for computational scalability. Both methods are grounded in a conditional modeling framework, where elements of one graph's adjacency matrix are modeled using a generalized linear model (GLM), given the other graph and the available covariates. We establish theoretical guarantees for model estimation error and exact recovery of the solution of the QAP. The effectiveness of our methods is demonstrated through numerical experiments and in an application to matching the statistics academic genealogy and the collaboration networks. By leveraging additional covariates, we achieve improved alignment accuracy. Our work highlights the power of integrating covariate information in the classical graph matching setup, offering a practical and improved framework for combining network data with wide-ranging applications.


翻译:数据集成在从历史记录到生物医学研究等众多领域中至关重要,有助于进行联合统计推断。这一过程的关键初始步骤通常涉及在缺乏唯一标识符的情况下,通过匹配个体记录来合并多个数据源。当数据集为网络时,这一问题通常通过图匹配方法来解决。在此类情况下,与节点或边相关的辅助特征或协变量有助于提高匹配精度。然而,现有的大多数图匹配技术并未整合此类信息,限制了其在处理不可识别和错误匹配时的性能。为克服这些限制,我们提出了两种新颖的协变量辅助种子图匹配方法,其中已知一组节点(称为种子)的部分对齐信息。第一种方法在整个图上求解二次分配问题(QAP),而第二种方法仅利用种子节点的局部邻域结构以实现计算可扩展性。两种方法均基于条件建模框架,在给定另一图及可用协变量的条件下,使用广义线性模型(GLM)对一个图的邻接矩阵元素进行建模。我们为模型估计误差和QAP解的精确恢复建立了理论保证。通过数值实验以及在匹配统计学学术谱系与合作网络的应用中,验证了所提方法的有效性。通过利用额外协变量,我们实现了更高的对齐精度。本研究凸显了在经典图匹配框架中整合协变量信息的优势,为结合网络数据提供了实用且改进的框架,具有广泛的应用前景。

0
下载
关闭预览

相关内容

【NeurIPS2023】半监督端到端对比学习用于时间序列分类
专知会员服务
36+阅读 · 2023年10月17日
【ICLR2022】GNN-LM基于全局信息的图神经网络语义理解模型
专知会员服务
19+阅读 · 2021年9月6日
【WWW2021】双曲图卷积网络的协同过滤
专知会员服务
40+阅读 · 2021年3月26日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
图节点嵌入(Node Embeddings)概述,9页pdf
专知
15+阅读 · 2020年8月22日
Spark机器学习:矩阵及推荐算法
LibRec智能推荐
16+阅读 · 2017年8月3日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【NeurIPS2023】半监督端到端对比学习用于时间序列分类
专知会员服务
36+阅读 · 2023年10月17日
【ICLR2022】GNN-LM基于全局信息的图神经网络语义理解模型
专知会员服务
19+阅读 · 2021年9月6日
【WWW2021】双曲图卷积网络的协同过滤
专知会员服务
40+阅读 · 2021年3月26日
相关资讯
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
图节点嵌入(Node Embeddings)概述,9页pdf
专知
15+阅读 · 2020年8月22日
Spark机器学习:矩阵及推荐算法
LibRec智能推荐
16+阅读 · 2017年8月3日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员