Distributed frameworks are widely used to handle massive data, where sample size $n$ is very large, and data are often stored in $k$ different machines. For a random vector $X\in \mathbb{R}^p$ with expectation $\mu$, testing the mean vector $H_0: \mu=\mu_0$ vs $H_1: \mu\ne \mu_0$ for a given vector $\mu_0$ is a basic problem in statistics. The centralized test statistics require heavy communication costs, which can be a burden when $p$ or $k$ is large. To reduce the communication cost, distributed test statistics are proposed in this paper for this problem based on the divide and conquer technique, a commonly used approach for distributed statistical inference. Specifically, we extend two commonly used centralized test statistics to the distributed ones, that apply to low and high dimensional cases, respectively. Comparing the power of centralized test statistics and the distributed ones, it is observed that there is a fundamental tradeoff between communication costs and the powers of the tests. This is quite different from the application of the divide and conquer technique in many other problems such as estimation, where the associated distributed statistics can be as good as the centralized ones. Numerical results confirm the theoretical findings.


翻译:分布式框架被广泛用于处理大宗数据, 样本规模为$非常大, 数据通常以美元存储在不同的机器中。 对于随机矢量 $X_ in\mathbb{R ⁇ p$, 期望为$ mu$, 测试平均矢量 $H_0:\ mu ⁇ mu_0$对 $H_1:\ mune\ne\ mu_0$对给定矢量 $mu_0美元是一个基本的统计问题。 集中测试统计需要高昂的通信费用, 当美元或美元很大时, 这可能是一个负担。 为了降低通信费用, 本文根据差异和征服技术( 分布式统计推导法通常使用的方法), 测试数据将两种常用的集中测试统计数据扩大到分布式的矢量, 分别适用于低度和高度的矢量案例。 比较集中测试统计数据的力量和分布式的统计, 观察到通信费用与测试能力之间有着根本的权衡。 为了降低通信成本或美元, 。 为了降低通信成本, 。 为了降低通信成本或美元, 。 为了降低通信成本, 本文中的差异,, 本文根据差异, 应用 分散式统计结果可以确认,,,, 与 将 将 将 将 与 分配 与 将 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 的 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 。

0
下载
关闭预览

相关内容

Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
108+阅读 · 2020年5月3日
专知会员服务
62+阅读 · 2020年3月4日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
机器学习算法实践:朴素贝叶斯 (Naive Bayes)
Python开发者
3+阅读 · 2017年7月22日
Arxiv
0+阅读 · 2021年11月26日
Arxiv
3+阅读 · 2017年12月1日
VIP会员
相关VIP内容
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
108+阅读 · 2020年5月3日
专知会员服务
62+阅读 · 2020年3月4日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
机器学习算法实践:朴素贝叶斯 (Naive Bayes)
Python开发者
3+阅读 · 2017年7月22日
Top
微信扫码咨询专知VIP会员