We investigate the problem of testing whether a discrete probability distribution over an ordered domain is a histogram on a specified number of bins. One of the most common tools for the succinct approximation of data, $k$-histograms over $[n]$, are probability distributions that are piecewise constant over a set of $k$ intervals. The histogram testing problem is the following: Given samples from an unknown distribution $\mathbf{p}$ on $[n]$, we want to distinguish between the cases that $\mathbf{p}$ is a $k$-histogram versus $\varepsilon$-far from any $k$-histogram, in total variation distance. Our main result is a sample near-optimal and computationally efficient algorithm for this testing problem, and a nearly-matching (within logarithmic factors) sample complexity lower bound. Specifically, we show that the histogram testing problem has sample complexity $\widetilde \Theta (\sqrt{nk} / \varepsilon + k / \varepsilon^2 + \sqrt{n} / \varepsilon^2)$.
翻译:我们调查了测试一个定购域的离散概率分布是否是指定数量的文件箱的直方图的问题。 数据简明近似的最常用工具之一, $[ $[ 美元, 美元和美元, 是一组美元间隔的概率分布。 直方图测试问题如下: 以 $[ $\ mathbf{p} 以 $ 为单位, 我们想区分一个案例, 美元- 美元与美元- 美元/ 美元- 美元- 美元( 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元, 是完全变化的距离。 我们的主要结果是, 这个测试问题的样本接近最佳且计算高效的算法, 以及近匹配的( 在逻辑因素中) 样本复杂性较低。 具体地说, 其直方图测试问题具有 $\ bloytilde \ Theta (\ rt{ nk} / varepepsils + k@r2. *\\\\\ rqqqr2) { r=\\\ r=\ Q\ Qqlusqlus2) 。