Principal component analysis (PCA) is a well-known tool for dimension reduction. It can summarise the data in fewer than the original number of dimensions without losing essential information. However, when data are dispersed across multiple servers, communication cost can't make PCA useful in this situation. Thus distributed algorithms for PCA are needed. Fan et al. [Annals of statistics $\textbf{47}$(6) (2019) 3009-3031] proposed a distributed PCA algorithm to settle this problem. On each server, They computed the $K$ leading eigenvectors $\widehat{V}_{K}^{(\ell)}=\left(\widehat{v}_{1}^{(\ell)}, \ldots, \widehat{v}_{K}^{(\ell)}\right) \in \mathbb{R}^{d \times K}$ of the sample covariance matrix $\widehat{\Sigma}$ and sent $\widehat{V}_{K}^{(\ell)}$ to the data center. In this paper, we introduce robust covariance matrix estimators respectively proposed by Minsker [Annals of statistics $\textbf{46}$(6A) (2018) 2871-2903] and Ke et al. [Statistical Science $\textbf{34}$(3) (2019) 454-471] into the distributed PCA algorithm and compute its top $K$ eigenvectors on each server and transmit them to the central server. We investigate the statistical error of the resulting distributed estimator and derive the rate of convergence for distributed PCA estimators for symmetric innovation distribution and general distribution. By simulation study, the theoretical results are verified. Also, we extend our analysis to the heterogeneous case with weaker moments where samples on each server and across servers are independent and their population covariance matrices are different but share the same top $K$ eigenvectors.


翻译:首席元件分析( PCA) 是一个众所周知的降低维度的工具 。 它可以以低于原始维度数量的数量来总结数据。 但是, 当数据分散于多个服务器时, 通信成本无法使五氯苯在此情况下有用 。 因此, 需要分配 CPA 的算法 。 Fan et al. [统计年鉴 $\ textbf{47} (2019) 3009- 3031] 提议一个分布式 CPA 算法来解决这个问题 。 在每一个服务器上, 它们计算出 $K$$( $%54} (\ell) left (\ bloyhat{v% 1} (ell)}, 当数据在多个服务器上分布时 。 在本文上, 我们引入了更强的 compreflicalal=rlational_ klistal_ral_ disal_ dismalateal disalations 4ral_ kyal_ dreal_ dreal_ disal_ dismal_ disqal disal_ disqual_ 4ral_ disqal_ 4ral_ disqal disal_ ex disqal_ diral_ 4ral_ legal_ legal_ legal_ legal_ legal_ legal__ dal_ dal_ legal_ legal_ legal_ legal_dal_ legal_ legal dal disal_ legal_ legal_ legal__ral_ral__________al dal dal dal dal dal dal dal dal dal dal dal dal dal dal dal dal dal dal dalalal dal dal dal dal dal dal dal dal dal dal dal dal dal dal dal dal dal dal dal dal dal dal dal diral diral diralalalsal disal diral diral dal

0
下载
关闭预览

相关内容

在统计中,主成分分析(PCA)是一种通过最大化每个维度的方差来将较高维度空间中的数据投影到较低维度空间中的方法。给定二维,三维或更高维空间中的点集合,可以将“最佳拟合”线定义为最小化从点到线的平均平方距离的线。可以从垂直于第一条直线的方向类似地选择下一条最佳拟合线。重复此过程会产生一个正交的基础,其中数据的不同单个维度是不相关的。 这些基向量称为主成分。
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
107+阅读 · 2020年5月3日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
已删除
将门创投
18+阅读 · 2019年2月18日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
STRCF for Visual Object Tracking
统计学习与视觉计算组
14+阅读 · 2018年5月29日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
原创 | Attention Modeling for Targeted Sentiment
黑龙江大学自然语言处理实验室
25+阅读 · 2017年11月5日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2020年11月30日
Arxiv
0+阅读 · 2020年11月30日
Arxiv
0+阅读 · 2020年11月26日
Arxiv
19+阅读 · 2020年7月13日
VIP会员
相关VIP内容
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
107+阅读 · 2020年5月3日
相关资讯
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
已删除
将门创投
18+阅读 · 2019年2月18日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
STRCF for Visual Object Tracking
统计学习与视觉计算组
14+阅读 · 2018年5月29日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
原创 | Attention Modeling for Targeted Sentiment
黑龙江大学自然语言处理实验室
25+阅读 · 2017年11月5日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员