Data integration, or the strategic analysis of multiple sources of data simultaneously, can often lead to discoveries that may be hidden in individualistic analyses of a single data source. We develop a new unsupervised data integration method named Integrated Principal Components Analysis (iPCA), which is a model-based generalization of PCA and serves as a practical tool to find and visualize common patterns that occur in multiple data sets. The key idea driving iPCA is the matrix-variate normal model, whose Kronecker product covariance structure captures both individual patterns within each data set and joint patterns shared by multiple data sets. Building upon this model, we develop several penalized (sparse and non-sparse) covariance estimators for iPCA, and using geodesic convexity, we prove that our non-sparse iPCA estimator converges to the global solution of a non-convex problem. We also demonstrate the practical advantages of iPCA through extensive simulations and a case study application to integrative genomics for Alzheimer's disease. In particular, we show that the joint patterns extracted via iPCA are highly predictive of a patient's cognition and Alzheimer's diagnosis.


翻译:数据集成,或同时对多种数据源进行战略分析,往往会导致发现发现,这些发现可能隐藏在单一数据源的个人分析中。我们开发了一个新的未经监督的数据集集成方法,名为集成主要组成部分分析(iPCA),这是对五氯苯甲醚的一种基于模型的一般分析,是发现和想象在多个数据集中出现的共同模式的实用工具。驱动 iPCA的主要理念是矩阵变量正常模型,其Kronecker产品常识结构捕捉了每个数据集中的单个模式和多个数据集共享的共同模式。我们以这一模型为基础,为iPCA开发了几种受罚(粗略和非粗略)的共变数数据集计算器,并使用了大地测量的共性。我们证明,我们的非剖析的 iPCA 估量器与非凝固问题的全球解决方案相交汇。我们还通过广泛的模拟和案例研究应用来综合基因组分析阿尔茨海默氏病。我们特别表明,通过iPCA 诊断得出的联合模式是高度预测一个病人的共生性。

0
下载
关闭预览

相关内容

Integration:Integration, the VLSI Journal。 Explanation:集成,VLSI杂志。 Publisher:Elsevier。 SIT:http://dblp.uni-trier.de/db/journals/integration/
【经典书】数理统计学,142页pdf
专知会员服务
96+阅读 · 2021年3月25日
专知会员服务
42+阅读 · 2020年12月18日
【ACML2020】张量网络机器学习:最近的进展和前沿,109页ppt
专知会员服务
54+阅读 · 2020年12月15日
专知会员服务
50+阅读 · 2020年12月14日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
【斯坦福大学】矩阵对策的协调方法,89页pdf
专知会员服务
25+阅读 · 2020年9月18日
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
107+阅读 · 2020年5月3日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
金融领域自然语言处理研究资源大列表
专知
13+阅读 · 2020年2月27日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年5月28日
Arxiv
0+阅读 · 2021年5月28日
Arxiv
19+阅读 · 2020年7月13日
VIP会员
相关VIP内容
【经典书】数理统计学,142页pdf
专知会员服务
96+阅读 · 2021年3月25日
专知会员服务
42+阅读 · 2020年12月18日
【ACML2020】张量网络机器学习:最近的进展和前沿,109页ppt
专知会员服务
54+阅读 · 2020年12月15日
专知会员服务
50+阅读 · 2020年12月14日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
【斯坦福大学】矩阵对策的协调方法,89页pdf
专知会员服务
25+阅读 · 2020年9月18日
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
107+阅读 · 2020年5月3日
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
金融领域自然语言处理研究资源大列表
专知
13+阅读 · 2020年2月27日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员