Given a dataset $\mathcal{D}$, we are interested in computing the mean of a subset of $\mathcal{D}$ which matches a predicate. \algname leverages stratified sampling and proxy models to efficiently compute this statistic given a sampling budget $N$. In this document, we theoretically analyze \algname and show that the MSE of the estimate decays at rate $O(N_1^{-1} + N_2^{-1} + N_1^{1/2}N_2^{-3/2})$, where $N=K \cdot N_1+N_2$ for some integer constant $K$ and $K \cdot N_1$ and $N_2$ represent the number of samples used in Stage 1 and Stage 2 of \algname respectively. Hence, if a constant fraction of the total sample budget $N$ is allocated to each stage, we will achieve a mean squared error of $O(N^{-1})$ which matches the rate of mean squared error of the optimal stratified sampling algorithm given a priori knowledge of the predicate positive rate and standard deviation per stratum.


翻译:根据一个数据集 $\ mathcal{D} 美元, 我们有兴趣计算一个符合上游的 $\ mathcal{D} 的子集的平均值。 \ ALgname 杠杆点的抽样和代理模型, 以便根据抽样预算有效计算这一统计数据 $。 在本文件中, 我们从理论上分析 \ algname, 并显示, 估计数的MSE 以 $( N_ 1 ⁇ -1} + N_ 2 ⁇ -1} + N_ 1 ⁇ 1/2} N_ 2 ⁇ -3/2} $ 。 其中, 美元= K\ cdot N_ 1+N_ 2$ 用于某些整数常数不变数 美元和 $\ cdot N_ 1 美元 和 $N_ 2$ 代表了第一阶段和 + 2 阶段分别使用的样本数量。 因此, 如果将总样本预算的固定部分分配给每个阶段, 我们就会得出平均的正方差差差值为 $O (N ⁇ -1}, 美元, 美元, 美元将达到与最高定数的平方差率, 和 之前的定数的平方差差率。

0
下载
关闭预览

相关内容

专知会员服务
51+阅读 · 2021年8月8日
专知会员服务
44+阅读 · 2020年12月18日
【ACL2020】多模态信息抽取,365页ppt
专知会员服务
147+阅读 · 2020年7月6日
专知会员服务
62+阅读 · 2020年3月4日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
已删除
架构文摘
3+阅读 · 2019年4月17日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
计算机视觉的不同任务
专知
5+阅读 · 2018年8月27日
【CNN】一文读懂卷积神经网络CNN
产业智能官
18+阅读 · 2018年1月2日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年9月24日
Viewpoint Estimation-Insights & Model
Arxiv
3+阅读 · 2018年7月3日
Arxiv
3+阅读 · 2018年2月22日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
已删除
架构文摘
3+阅读 · 2019年4月17日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
计算机视觉的不同任务
专知
5+阅读 · 2018年8月27日
【CNN】一文读懂卷积神经网络CNN
产业智能官
18+阅读 · 2018年1月2日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员