Distributed frameworks are widely used to handle massive data, where sample size $n$ is very large, and data are often stored in $k$ different machines. For a random vector $X\in \mathbb{R}^p$ with expectation $\mu$, testing the mean vector $H_0: \mu=\mu_0$ vs $H_1: \mu\ne \mu_0$ for a given vector $\mu_0$ is a basic problem in statistics. The centralized test statistics require heavy communication costs, which can be a burden when $p$ or $k$ is large. To reduce the communication cost, distributed test statistics are proposed in this paper for this problem based on the divide and conquer technique, a commonly used approach for distributed statistical inference. Specifically, we extend two commonly used centralized test statistics to the distributed ones, that apply to low and high dimensional cases, respectively. Comparing the power of centralized test statistics and the distributed ones, it is observed that there is a fundamental tradeoff between communication costs and the powers of the tests. This is quite different from the application of the divide and conquer technique in many other problems such as estimation, where the associated distributed statistics can be as good as the centralized ones. Numerical results confirm the theoretical findings.
翻译:分布式框架被广泛用于处理大宗数据, 样本规模为$非常大, 数据通常以美元存储在不同的机器中。 对于随机矢量 $X_ in\mathbb{R ⁇ p$, 期望为$ mu$, 测试平均矢量 $H_0:\ mu ⁇ mu_0$对 $H_1:\ mune\ne\ mu_0$对给定矢量 $mu_0美元是一个基本的统计问题。 集中测试统计需要高昂的通信费用, 当美元或美元很大时, 这可能是一个负担。 为了降低通信费用, 本文根据差异和征服技术( 分布式统计推导法通常使用的方法), 测试数据将两种常用的集中测试统计数据扩大到分布式的矢量, 分别适用于低度和高度的矢量案例。 比较集中测试统计数据的力量和分布式的统计, 观察到通信费用与测试能力之间有着根本的权衡。 为了降低通信成本或美元, 。 为了降低通信成本, 。 为了降低通信成本或美元, 。 为了降低通信成本, 本文中的差异,, 本文根据差异, 应用 分散式统计结果可以确认,,,, 与 将 将 将 将 与 分配 与 将 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 的 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 相 。