A minimal perfect hash function $f$ for a set $S$ of $n$ keys is a bijective function of the form $f : S \rightarrow \{0,\ldots,n-1\}$. These functions are important for many practical applications in computing, such as search engines, computer networks, and databases. Several algorithms have been proposed to build minimal perfect hash functions that: scale well to large sets, retain fast evaluation time, and take very little space, e.g., 2 - 3 bits/key. PTHash is one such algorithm, achieving very fast evaluation in compressed space, typically several times faster than other techniques. In this work, we propose a new construction algorithm for PTHash enabling: (1) multi-threading, to either build functions more quickly or more space-efficiently, and (2) external-memory processing to scale to inputs much larger than the available internal memory. Only few other algorithms in the literature share these features, despite of their big practical impact. We conduct an extensive experimental assessment on large real-world string collections and show that, with respect to other techniques, PTHash is competitive in construction time and space consumption, but retains 2 - 6$\times$ better lookup time.


翻译:最起码的完美 hash 函数 $1 f 美元 $n 键 。 PTHash 是一种这样的算法, 在压缩空间中实现非常快速的评估, 通常比其他技术快几倍。 在这项工作中, 我们为 PTHash 启用提出了一个新的建筑算法:(1) 多读, 要么更快地或更高效地建立功能, 要么以空间效率更高的方式建立功能, (2) 外部- 模拟处理, 规模到投入比现有内部记忆大得多。 文献中只有极少数其他算法分享这些特征, 尽管这些特征具有巨大的实际影响。 我们对大型真实世界字符收藏进行了广泛的实验评估, 并显示, 在其它技术方面, PTHash 保留了6 美元 。

0
下载
关闭预览

相关内容

专知会员服务
22+阅读 · 2021年4月10日
知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
108+阅读 · 2020年6月10日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
MIT新书《强化学习与最优控制》
专知会员服务
275+阅读 · 2019年10月9日
LibRec 精选:从0开始构建RNN网络
LibRec智能推荐
5+阅读 · 2019年5月31日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
自然语言处理顶会EMNLP2018接受论文列表!
专知
87+阅读 · 2018年8月26日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Arxiv
0+阅读 · 2021年7月28日
Arxiv
0+阅读 · 2021年7月26日
Arxiv
3+阅读 · 2017年12月14日
VIP会员
相关资讯
LibRec 精选:从0开始构建RNN网络
LibRec智能推荐
5+阅读 · 2019年5月31日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
自然语言处理顶会EMNLP2018接受论文列表!
专知
87+阅读 · 2018年8月26日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Top
微信扫码咨询专知VIP会员