Given a dataset $\mathcal{D}$, we are interested in computing the mean of a subset of $\mathcal{D}$ which matches a predicate. \algname leverages stratified sampling and proxy models to efficiently compute this statistic given a sampling budget $N$. In this document, we theoretically analyze \algname and show that the MSE of the estimate decays at rate $O(N_1^{-1} + N_2^{-1} + N_1^{1/2}N_2^{-3/2})$, where $N=K \cdot N_1+N_2$ for some integer constant $K$ and $K \cdot N_1$ and $N_2$ represent the number of samples used in Stage 1 and Stage 2 of \algname respectively. Hence, if a constant fraction of the total sample budget $N$ is allocated to each stage, we will achieve a mean squared error of $O(N^{-1})$ which matches the rate of mean squared error of the optimal stratified sampling algorithm given a priori knowledge of the predicate positive rate and standard deviation per stratum.
翻译:根据一个数据集 $\ mathcal{D} 美元, 我们有兴趣计算一个符合上游的 $\ mathcal{D} 的子集的平均值。 \ ALgname 杠杆点的抽样和代理模型, 以便根据抽样预算有效计算这一统计数据 $。 在本文件中, 我们从理论上分析 \ algname, 并显示, 估计数的MSE 以 $( N_ 1 ⁇ -1} + N_ 2 ⁇ -1} + N_ 1 ⁇ 1/2} N_ 2 ⁇ -3/2} $ 。 其中, 美元= K\ cdot N_ 1+N_ 2$ 用于某些整数常数不变数 美元和 $\ cdot N_ 1 美元 和 $N_ 2$ 代表了第一阶段和 + 2 阶段分别使用的样本数量。 因此, 如果将总样本预算的固定部分分配给每个阶段, 我们就会得出平均的正方差差差值为 $O (N ⁇ -1}, 美元, 美元, 美元将达到与最高定数的平方差率, 和 之前的定数的平方差差率。