Given a lossy-compressed representation, or sketch, of data with values in a set of symbols, the frequency recovery problem considers the estimation of the empirical frequency of a new data point. Recent studies have applied Bayesian nonparametrics (BNPs) to develop learning-augmented versions of the popular count-min sketch (CMS) recovery algorithm. In this paper, we present a novel BNP approach to frequency recovery, which is not built from the CMS but still relies on a sketch obtained by random hashing. Assuming data to be modeled as random samples from an unknown discrete distribution, which is endowed with a Poisson-Kingman (PK) prior, we provide the posterior distribution of the empirical frequency of a symbol, given the sketch. Estimates are then obtained as mean functionals. An application of our result is presented for the Dirichlet process (DP) and Pitman-Yor process (PYP) priors, and in particular: i) we characterize the DP prior as the sole PK prior featuring a property of sufficiency with respect to the sketch, leading to a simple posterior distribution; ii) we identify a large sample regime under which the PYP prior leads to a simple approximation of the posterior distribution. Then, we develop our BNP approach to a "traits" formulation of the frequency recovery problem, not yet studied in the CMS literature, in which data belong to more than one symbol (trait), and exhibit nonnegative integer levels of associations with each trait. In particular, by modeling data as random samples from a generalized Indian buffet process, we provide the posterior distribution of the empirical frequency level of a trait, given the sketch. This result is then applied under the assumption of a Poisson and Bernoulli distribution for the levels of associations, leading to a simple posterior distribution and a simple approximation of the posterior distribution, respectively.


翻译:给定值域为符号集合的数据的损失压缩表示,或称为草图(sketch),频率恢复问题考虑估计新的数据点的经验频率。最近的研究将贝叶斯非参数(BNPs)应用于开发混合频率计数(min-sketch(CMS))恢复算法的学习增强版本。在本文中,我们提出了一种新颖的BNP方法来进行频率恢复,它不是基于CMS构建的,但仍然依赖于通过随机哈希得到的草图。假设数据被建模为来自未知离散分布的随机样本,该分布带有泊松-金曼(PK)先验,我们给出了在草图给定的情况下符号经验频率的后验分布。然后,估计值作为均值函数得到。我们还应用我们的结果于狄利克雷过程(DP)和皮特曼 - 约尔过程(PYP)先验,并特别提出:i)我们将DP先验表征为仅具有关于草图充分性质的PK先验,导致后验分布简单; ii)我们确定了一个大样本区域,在这个区域内,PYP先验导致了对后验分布的简单逼近。然后,我们发展了我们的BNP方法应用于频率恢复问题的"特性"公式,这在CMS文献中尚未研究,其中数据属于多个符号(特性),并展示了每个特性的非负整数级别的关联。特别地,通过将数据建模为来自广义印第安自助选股过程的随机样本,我们提供了在草图给定的情况下特性的经验频率级别的后验分布。然后,在假设关联级别的泊松分布和伯努利分布的情况下,我们分别得到了简单的后验分布和简单的后验分布逼近。

0
下载
关闭预览

相关内容

“后验”是指在考虑与所审查的特定案件有关的相关证据之后。类似地,后验概率分布是未知量的概率分布,视从实验或调查获得的证据为条件,该未知量被视为随机变量。
自编码器导论,26页pdf
专知会员服务
41+阅读 · 2022年1月18日
【硬核书】树与网络上的概率,716页pdf
专知会员服务
72+阅读 · 2021年12月8日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
专知会员服务
61+阅读 · 2020年3月4日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
因果效应估计组合拳:Reweighting和Representation
PaperWeekly
0+阅读 · 2022年9月2日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
论文浅尝 | Global Relation Embedding for Relation Extraction
开放知识图谱
12+阅读 · 2019年3月3日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
Arxiv
27+阅读 · 2021年11月11日
VIP会员
相关资讯
因果效应估计组合拳:Reweighting和Representation
PaperWeekly
0+阅读 · 2022年9月2日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
论文浅尝 | Global Relation Embedding for Relation Extraction
开放知识图谱
12+阅读 · 2019年3月3日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员