今夜因“陌陌”而精彩，莫莫Hash在推荐系统的应用 - 专知

会员服务 ·

0

今夜因“陌陌”而精彩，莫莫Hash在推荐系统的应用

2020 年 1 月 17 日 凡人机器学习

本文来之不易，学习hash的起源是我在客户交流现场被问到hash冲突。其实这个是我的知识短板，但是因为我隐约记得有个murmurhash的东西，然后蒙混过去了。然后今天抓紧找各位大牛学习了hash在推荐系统中的作用，总结了这篇笔记。感觉自己还是太文盲了，另外也感谢客户老师以及公司内的大牛老师的指导。

0 1

推荐系统中数据如何转成稀疏数据

先来一句话概括下，Hash解决的是一个空间匹配的效率问题。理解这一句话首先要了解稠密数据和稀疏数据的区别，大家可以看看台湾某大学开源的libsvm数据格式，这个格式是目前稀疏数据的行业规范，稀疏数据的好处就是可以减少计算过程中的非0元的计算量。

ok，接下来用一个例子说明为什么在推荐领域要用Hash做特征编码。假设我们有一份推荐场景稠密数据，第一列是ID列，第二、三列是Feature列，最后一列是Label列。

ID	F1	F2	Label
A	7	6	0
B	5	9	1
C	2	2	0

这份数据转成稀疏格式（libsvm）后会是这样：

ID	KV	Label
A	2:7 1:6	0
B	1:5 2:9	1
C	0:2 0:2	0

F1和F2这两个特征列变成了K:V结构，以样本A为例，它的F1这个特征是7，在F1这三个特征中（7，5，2）排名第3，所以K值为2。它的F2这个特征是6，在F2三个特征中（6，9，2）排名第2，所以K为1。

0 2

Hash的作用

如果按照以上思路去把稠密数据转稀疏数据需要例如如下的这样的代码：

for(i=0; i<len(feature),i++ )

 #找到特征的排位确定k值

每一个样本的特征转换都需要遍历全部样本，如果样本数很大，效率非常差。因为这个稠密转稀疏无非是找到一个空值空间，把数据插入内存，这个时候就可以利用Hash的方式提升效率。

还以上文例子为例，我们可以把特征空间区分为两份，比如1~100的位置给到特征F1，1000~10000的位置给到特征F2。然后用一个HashFunction自动把数值映射到对应的位置上。

比如:

HashFunction(F1,7)=010

HashFunction(F2,9)=01000

这样就不需要遍历全部样本，大大提升了效率。

0 3

Hash冲突问题

在推荐领域，往往样本量非常大，每个特征的可能性也很多。比如某个特征表示的是平台的所有商品，那么如果用HashFunction的方法需要巨大的空间表示这个特征，这样才能避免相同的特征值落在相同的范围内，形成Hash冲突。但是巨大的空间意味着模型的宽度增加，对于计算效率也是有挑战。

变成一个博弈问题，Hash冲突风险越小，模型越大，人们希望风险小而且模型小。为了解决这个问题，业内有很多优质的Hash方法，比如MurmurHash、CityHash。

推荐MurmurHash，目前Redis数据库主键就是用的这个方案。因为这个Hash算法非常复杂，以我的智商应该很难理解，所以MurmurHash的详细原理，建议移步某乎。谢谢~

登录查看更多

1

相关内容

哈希学习

深度哈希图像检索综述论文，14页pdf

专知会员服务

50+阅读 · 2020年6月14日

近期必读的六篇SIGIR 2020【图神经网络 +推荐(GNN+RS) 】相关论文

近期必读的六篇SIGIR 2020【图神经网络 +推荐(GNN+RS) 】相关论文

专知会员服务

162+阅读 · 2020年6月2日

【KDD2020-阿里巴巴】M2GRL-多任务多视角图表示学习的Web级推荐系统

【KDD2020-阿里巴巴】M2GRL-多任务多视角图表示学习的Web级推荐系统

专知会员服务

37+阅读 · 2020年5月22日

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

专知会员服务

208+阅读 · 2020年4月27日

近期必读的6篇顶会WWW2020【推荐系统】相关论文-Part3

近期必读的6篇顶会WWW2020【推荐系统】相关论文-Part3

专知会员服务

58+阅读 · 2020年4月14日

【WWW2020-中科大】LightRec:一个内存和搜索高效率的推荐系统

【WWW2020-中科大】LightRec:一个内存和搜索高效率的推荐系统

专知会员服务

49+阅读 · 2020年3月23日

【香港中文大学-VLDB2020】Dash:可扩展的持久内存哈希，Scalable Hashing

【香港中文大学-VLDB2020】Dash:可扩展的持久内存哈希，Scalable Hashing

专知会员服务

25+阅读 · 2020年3月17日

史上最全《知识图谱》2020综述论文，130页pdf，547篇参考文献

史上最全《知识图谱》2020综述论文，130页pdf，547篇参考文献

专知会员服务

461+阅读 · 2020年3月7日

近期必读的6篇AI顶会WWW2020【推荐系统】相关论文

近期必读的6篇AI顶会WWW2020【推荐系统】相关论文

专知会员服务

57+阅读 · 2020年2月25日

【推荐系统/计算广告/机器学习/CTR预估资料汇总】

【推荐系统/计算广告/机器学习/CTR预估资料汇总】

专知会员服务

88+阅读 · 2019年10月21日

我是怎么走上推荐系统这条（不归）路的……

我是怎么走上推荐系统这条（不归）路的……

全球人工智能

11+阅读 · 2019年4月9日

深度 | 推荐系统如何冷启动？

深度 | 推荐系统如何冷启动？

AI100

17+阅读 · 2019年4月7日

【实战分享】电影推荐系统项目实战应用

【实战分享】电影推荐系统项目实战应用

七月在线实验室

35+阅读 · 2019年3月7日

推荐系统

炼数成金订阅号

28+阅读 · 2019年1月17日

推荐系统中的矩阵分解技术

推荐系统中的矩阵分解技术

AINLP

9+阅读 · 2018年12月24日

干货 | 用 Keras 实现图书推荐系统

干货 | 用 Keras 实现图书推荐系统

AI科技评论

11+阅读 · 2018年12月15日

1分钟了解相似性推荐

1分钟了解相似性推荐

架构师之路

5+阅读 · 2018年3月20日

电商们推荐的都不是想买的？看看亚马逊是怎么做推荐系统的

电商们推荐的都不是想买的？看看亚马逊是怎么做推荐系统的

InfoQ

6+阅读 · 2018年3月4日

无问西东，只问哈希

无问西东，只问哈希

线性资本

3+阅读 · 2018年1月18日

自然语言处理技术（NLP）在推荐系统中的应用

自然语言处理技术（NLP）在推荐系统中的应用

CSDN大数据

4+阅读 · 2017年6月29日

Probability Weighted Compact Feature for Domain Adaptive Retrieval

Probability Weighted Compact Feature for Domain Adaptive Retrieval

Arxiv

4+阅读 · 2020年3月6日

A Fast Content-Based Image Retrieval Method Using Deep Visual Features

Arxiv

3+阅读 · 2019年8月5日

Neural Graph Collaborative Filtering

Arxiv

8+阅读 · 2019年5月20日

Kernelized Hashcode Representations for Biomedical Relation Extraction

Kernelized Hashcode Representations for Biomedical Relation Extraction

Arxiv

4+阅读 · 2018年8月17日

Deep Ordinal Hashing with Spatial Attention

Arxiv

9+阅读 · 2018年5月7日

Iterative Manifold Embedding Layer Learned by Incomplete Data for Large-scale Image Retrieval

Arxiv

8+阅读 · 2018年4月3日

Instance Similarity Deep Hashing for Multi-Label Image Retrieval

Arxiv

5+阅读 · 2018年3月19日

xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems

Arxiv

6+阅读 · 2018年3月15日

Collaborative Autoencoder for Recommender Systems

Arxiv

9+阅读 · 2018年1月30日

Biomedical Question Answering via Weighted Neural Network Passage Retrieval

Arxiv

10+阅读 · 2018年1月9日

VIP会员

相关主题

相关VIP内容

深度哈希图像检索综述论文，14页pdf

专知会员服务

50+阅读 · 2020年6月14日

近期必读的六篇SIGIR 2020【图神经网络 +推荐(GNN+RS) 】相关论文

近期必读的六篇SIGIR 2020【图神经网络 +推荐(GNN+RS) 】相关论文

专知会员服务

162+阅读 · 2020年6月2日

【KDD2020-阿里巴巴】M2GRL-多任务多视角图表示学习的Web级推荐系统

【KDD2020-阿里巴巴】M2GRL-多任务多视角图表示学习的Web级推荐系统

专知会员服务

37+阅读 · 2020年5月22日

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

专知会员服务

208+阅读 · 2020年4月27日

近期必读的6篇顶会WWW2020【推荐系统】相关论文-Part3

近期必读的6篇顶会WWW2020【推荐系统】相关论文-Part3

专知会员服务

58+阅读 · 2020年4月14日

【WWW2020-中科大】LightRec:一个内存和搜索高效率的推荐系统

【WWW2020-中科大】LightRec:一个内存和搜索高效率的推荐系统

专知会员服务

49+阅读 · 2020年3月23日

【香港中文大学-VLDB2020】Dash:可扩展的持久内存哈希，Scalable Hashing

【香港中文大学-VLDB2020】Dash:可扩展的持久内存哈希，Scalable Hashing

专知会员服务

25+阅读 · 2020年3月17日

史上最全《知识图谱》2020综述论文，130页pdf，547篇参考文献

史上最全《知识图谱》2020综述论文，130页pdf，547篇参考文献

专知会员服务

461+阅读 · 2020年3月7日

近期必读的6篇AI顶会WWW2020【推荐系统】相关论文

近期必读的6篇AI顶会WWW2020【推荐系统】相关论文

专知会员服务

57+阅读 · 2020年2月25日

【推荐系统/计算广告/机器学习/CTR预估资料汇总】

【推荐系统/计算广告/机器学习/CTR预估资料汇总】

专知会员服务

88+阅读 · 2019年10月21日

热门VIP内容

开通专知VIP会员享更多权益服务

《物联网（IoT）中的无人机通信高效控制》135页

《在GNSS信号降级环境中利用共识实现无人机集群稳健协调》

中程单向攻击无人机的战略意义：俄乌战争启示

《面向无人机集群的避障动态传感器覆盖算法》最新38页

相关资讯

我是怎么走上推荐系统这条（不归）路的……

我是怎么走上推荐系统这条（不归）路的……

全球人工智能

11+阅读 · 2019年4月9日

深度 | 推荐系统如何冷启动？

深度 | 推荐系统如何冷启动？

AI100

17+阅读 · 2019年4月7日

【实战分享】电影推荐系统项目实战应用

【实战分享】电影推荐系统项目实战应用

七月在线实验室

35+阅读 · 2019年3月7日

推荐系统

炼数成金订阅号

28+阅读 · 2019年1月17日

推荐系统中的矩阵分解技术

推荐系统中的矩阵分解技术

AINLP

9+阅读 · 2018年12月24日

干货 | 用 Keras 实现图书推荐系统

干货 | 用 Keras 实现图书推荐系统

AI科技评论

11+阅读 · 2018年12月15日

1分钟了解相似性推荐

1分钟了解相似性推荐

架构师之路

5+阅读 · 2018年3月20日

电商们推荐的都不是想买的？看看亚马逊是怎么做推荐系统的

电商们推荐的都不是想买的？看看亚马逊是怎么做推荐系统的

InfoQ

6+阅读 · 2018年3月4日

无问西东，只问哈希

无问西东，只问哈希

线性资本

3+阅读 · 2018年1月18日

自然语言处理技术（NLP）在推荐系统中的应用

自然语言处理技术（NLP）在推荐系统中的应用

CSDN大数据

4+阅读 · 2017年6月29日

相关论文

Probability Weighted Compact Feature for Domain Adaptive Retrieval

Probability Weighted Compact Feature for Domain Adaptive Retrieval

Arxiv

4+阅读 · 2020年3月6日

A Fast Content-Based Image Retrieval Method Using Deep Visual Features

Arxiv

3+阅读 · 2019年8月5日

Neural Graph Collaborative Filtering

Arxiv

8+阅读 · 2019年5月20日

Kernelized Hashcode Representations for Biomedical Relation Extraction

Kernelized Hashcode Representations for Biomedical Relation Extraction

Arxiv

4+阅读 · 2018年8月17日

Deep Ordinal Hashing with Spatial Attention

Arxiv

9+阅读 · 2018年5月7日

Iterative Manifold Embedding Layer Learned by Incomplete Data for Large-scale Image Retrieval

Arxiv

8+阅读 · 2018年4月3日

Instance Similarity Deep Hashing for Multi-Label Image Retrieval

Arxiv

5+阅读 · 2018年3月19日

xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems

Arxiv

6+阅读 · 2018年3月15日

Collaborative Autoencoder for Recommender Systems

Arxiv

9+阅读 · 2018年1月30日

Biomedical Question Answering via Weighted Neural Network Passage Retrieval

Arxiv

10+阅读 · 2018年1月9日

大家都在搜

大型语言模型

CMU博士论文

久别重逢话双塔

国防科技创新

论文浅尝 - ICLR2020 | 通过神经逻辑归纳学习有效地解释

微信扫码咨询专知VIP会员