Probability proportional to size (PPS) sampling schemes with a target sample size aim to produce a sample comprising a specified number $n$ of items while ensuring that each item in the population appears in the sample with a probability proportional to its specified "weight" (also called its "size"). These two objectives, however, cannot always be achieved simultaneously. Existing PPS schemes prioritize control of the sample size, violating the PPS property if necessary. We provide a new PPS scheme that allows a different trade-off: our method enforces the PPS property at all times while ensuring that the sample size never exceeds the target value $n$. The sample size is exactly equal to $n$ if possible, and otherwise has maximal expected value and minimal variance. Thus we bound the sample size, thereby avoiding storage overflows and helping to control the time required for analytics over the sample, while allowing the user complete control over the sample contents. The method is both simple to implement and efficient, being a one-pass streaming algorithm with an amortized processing time of $O(1)$ per item.


翻译:与规模(PPS)抽样方案相称的概率,具有目标抽样规模,目的是产生由特定数量零美元物品组成的样本,同时确保每件物品在样本中出现,概率与其指定的“重量”(也称“尺寸”)成正比,但这两个目标并非总能同时实现。现有的PPS方案优先控制抽样规模,必要时违反PPS财产。我们提供了一个新的PPS方案,允许不同的权衡:我们的方法始终执行PPPS财产,同时确保样品规模永远不超过目标价值一美元。抽样规模完全等于美元,否则具有最大预期值和最小差异。因此,我们将样本大小捆绑起来,从而避免储存溢出,帮助控制对样品进行分析所需的时间,同时允许用户对样品内容进行完全控制。我们的方法既简单又有效,是一种一次性流动算法,每件的分解处理时间为1美元(1美元)。

0
下载
关闭预览

相关内容

专知会员服务
16+阅读 · 2021年5月21日
【干货书】机器学习速查手册,135页pdf
专知会员服务
126+阅读 · 2020年11月20日
专知会员服务
45+阅读 · 2020年10月31日
专知会员服务
61+阅读 · 2020年3月19日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
155+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
已删除
将门创投
4+阅读 · 2018年6月1日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年7月15日
Arxiv
0+阅读 · 2021年7月13日
Arxiv
0+阅读 · 2021年7月12日
Arxiv
1+阅读 · 2021年7月12日
VIP会员
相关VIP内容
专知会员服务
16+阅读 · 2021年5月21日
【干货书】机器学习速查手册,135页pdf
专知会员服务
126+阅读 · 2020年11月20日
专知会员服务
45+阅读 · 2020年10月31日
专知会员服务
61+阅读 · 2020年3月19日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
155+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
相关资讯
已删除
将门创投
4+阅读 · 2018年6月1日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员