Principal Component Analysis (PCA) is the workhorse tool for dimensionality reduction in this era of big data. While often overlooked, the purpose of PCA is not only to reduce data dimensionality, but also to yield features that are uncorrelated. Furthermore, the ever-increasing volume of data in the modern world often requires storage of data samples across multiple machines, which precludes the use of centralized PCA algorithms. This paper focuses on the dual objective of PCA, namely, dimensionality reduction and decorrelation of features, but in a distributed setting. This requires estimating the eigenvectors of the data covariance matrix, as opposed to only estimating the subspace spanned by the eigenvectors, when data is distributed across a network of machines. Although a few distributed solutions to the PCA problem have been proposed recently, convergence guarantees and/or communications overhead of these solutions remain a concern. With an eye towards communications efficiency, this paper introduces a feedforward neural network-based one time-scale distributed PCA algorithm termed Distributed Sanger's Algorithm (DSA) that estimates the eigenvectors of the data covariance matrix when data is distributed across an undirected and arbitrarily connected network of machines. Furthermore, the proposed algorithm is shown to converge linearly to a neighborhood of the true solution. Numerical results are also provided to demonstrate the efficacy of the proposed solution.


翻译:元件分析( PCA) 是当前海量数据时代减少维度的工具。 尽管经常被忽略, 五氯苯甲醚的目的不仅在于减少数据维度, 也在于产生与数据不相干的特点。 此外, 现代世界中数据数量不断增加, 往往需要通过多个机器储存数据样本, 从而排除使用中央化的五氯苯甲醚算法。 本文侧重于五氯苯甲醚的双重目标, 即维度减少和特性的变异性, 而在分布式环境中。 这要求估算数据变异矩阵的元体, 而不是仅仅估算在数据分布于机器网络之间时, 仅估算数据元子空间所跨越的子空间。 尽管最近提出了少量分散的关于五氯苯甲醚问题的解决方案, 但趋同保证和/ 或这些解决方案的通信间接费用仍然令人关切。 以通信效率为视角, 本文介绍了一种反馈式的神经网络分布式计算法, 称为分布式Sanger Algoithm( DSA), 而不是仅仅估算源源源数的分解的子空间间隔空间,, 并且 显示的模型显示的直线式计算结果的模型, 显示的正确的矩阵 方向的模型显示, 方向的模型显示, 方向的模型显示, 方向的模型显示的路径的模型显示, 方向的路径的模型显示, 方向式矩阵的模型显示的模型显示的路径矩阵 。

0
下载
关闭预览

相关内容

在统计中,主成分分析(PCA)是一种通过最大化每个维度的方差来将较高维度空间中的数据投影到较低维度空间中的方法。给定二维,三维或更高维空间中的点集合,可以将“最佳拟合”线定义为最小化从点到线的平均平方距离的线。可以从垂直于第一条直线的方向类似地选择下一条最佳拟合线。重复此过程会产生一个正交的基础,其中数据的不同单个维度是不相关的。 这些基向量称为主成分。
【CVPR2021】反事实的零次和开集识别
专知会员服务
25+阅读 · 2021年5月7日
专知会员服务
22+阅读 · 2021年4月10日
专知会员服务
307+阅读 · 2020年11月24日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
105+阅读 · 2020年5月3日
已删除
将门创投
4+阅读 · 2019年6月5日
LibRec 精选:位置感知的长序列会话推荐
LibRec智能推荐
3+阅读 · 2019年5月17日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
机器学习(28)【降维】之sklearn中PCA库讲解与实战
机器学习算法与Python学习
8+阅读 · 2017年11月27日
【计算机类】期刊专刊/国际会议截稿信息6条
Call4Papers
3+阅读 · 2017年10月13日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
0+阅读 · 2021年11月6日
Arxiv
9+阅读 · 2021年4月8日
Arxiv
43+阅读 · 2019年12月20日
Arxiv
4+阅读 · 2019年1月14日
Arxiv
3+阅读 · 2017年12月1日
VIP会员
相关资讯
已删除
将门创投
4+阅读 · 2019年6月5日
LibRec 精选:位置感知的长序列会话推荐
LibRec智能推荐
3+阅读 · 2019年5月17日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
机器学习(28)【降维】之sklearn中PCA库讲解与实战
机器学习算法与Python学习
8+阅读 · 2017年11月27日
【计算机类】期刊专刊/国际会议截稿信息6条
Call4Papers
3+阅读 · 2017年10月13日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员