MinHash and HyperLogLog are sketching algorithms that have become indispensable for set summaries in big data applications. While HyperLogLog allows counting different elements with very little space, MinHash is suitable for the fast comparison of sets as it allows estimating the Jaccard similarity and other joint quantities. This work presents a new data structure called SetSketch that is able to continuously fill the gap between both use cases. Its commutative and idempotent insert operation and its mergeable state make it suitable for distributed environments. Fast, robust, and easy-to-implement estimators for cardinality and joint quantities, as well as the ability to use SetSketch for similarity search, enable versatile applications. The presented joint estimator can also be applied to other data structures such as MinHash, HyperLogLog, or HyperMinHash, where it even performs better than the corresponding state-of-the-art estimators in many cases.


翻译:MinHash 和 HyperLogLog 是一种草图算法,对于大数据应用的设定摘要来说,这些算法是不可或缺的。 虽然超LogLog允许用很小的空间来计算不同的元素, 但 MinHash 适合对各组进行快速比较, 因为它可以估算“ 贾卡相似性” 和其他联合数量 。 这项工作提出了一个名为 SetSketch 的新数据结构, 能够持续填补两个使用案例之间的空白。 它的通和极能插入操作及其合并状态使得它适合分布式环境。 快速、 强大、 易于执行的基点和联合数量的估测器, 以及使用 Setsketch 进行相似性搜索的能力, 启用多功能应用程序 。 所提出的联合估计器也可以应用到其他数据结构, 如 MinHash、 超LogLog 或超MentMinHash 等, 在许多情况下, 其表现甚至优于相应的州艺术估计器 。

0
下载
关闭预览

相关内容

【干货书】开放数据结构,Open Data Structures,337页pdf
专知会员服务
16+阅读 · 2021年9月17日
深度学习图像检索(CBIR): 十年之大综述
专知会员服务
46+阅读 · 2020年12月5日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
76+阅读 · 2020年7月26日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
47+阅读 · 2020年7月4日
强化学习最新教程,17页pdf
专知会员服务
171+阅读 · 2019年10月11日
【论文】本体匹配实体对齐知识融合入门论文推荐
深度学习自然语言处理
25+阅读 · 2020年3月8日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
【计算机类】期刊专刊/国际会议截稿信息6条
Call4Papers
3+阅读 · 2017年10月13日
已删除
将门创投
5+阅读 · 2017年8月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
A survey on deep hashing for image retrieval
Arxiv
14+阅读 · 2020年6月10日
Arxiv
5+阅读 · 2018年3月28日
Arxiv
5+阅读 · 2018年3月6日
VIP会员
相关资讯
【论文】本体匹配实体对齐知识融合入门论文推荐
深度学习自然语言处理
25+阅读 · 2020年3月8日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
【计算机类】期刊专刊/国际会议截稿信息6条
Call4Papers
3+阅读 · 2017年10月13日
已删除
将门创投
5+阅读 · 2017年8月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员