干货 | 用 Keras 实现图书推荐系统

会员服务 ·

干货 | 用 Keras 实现图书推荐系统

2018 年 12 月 15 日 AI科技评论

推荐系统试图依据用户旧物品评级或偏好来预测对某一物品的评级或偏好。为了提高服务质量，几乎每个大公司都使用推荐系统。

在本文中，我们将研究如何使用Embedding来创建图书推荐系统。

对于我们的数据，我们将使用goodbooks-10k数据集，它包含1万种不同的图书和大约100万个评级。它有三个特性:book_id、user_id和评级（rating）。

如果您不想自己从Kaggle下载数据集，可以从我的my Github repository中获得本文所涉及的文件和完整代码。

Embedding

嵌入是一种映射，从离散的对象(如单词或在我们的例子里是图书id)到连续值向量的映射。这可以用来发现离散对象之间的相似性，如果不使用嵌入层，模型就不会发现这些相似性。

嵌入向量是低维的并且在训练网络时得到更新。下图显示了使用谷歌开源的高纬数据可视化 Tensorflows Embedding Projector 创建的嵌入示例。

图 2：Projector Embeddings

获取数据

首先使用Pandas加载数据集。之后将数据集拆分为训练集和测试集，我们将创建两个变量，分别用来存储去重后的用户id和书籍id(并不是用户数量)。

图3：Rating-Dataset Head

数据集已经被清洗过，所以我们无需做更多的数据清洗或者数据预处理的步骤。

建立嵌入模型

使用Keras 的深度学习框架可以很容易地创建神经网络嵌入模型，以及处理多个输入和输出层。

我们的模型有以下的结构：

输入：包括书和用户
嵌入层：书和用户的嵌入
点乘：使用点乘来合并各个嵌入向量

在一个嵌入模型中，嵌入的权重要在训练中学习得到。这些嵌入不仅能用来从数据中提取信息，他们本身也可以被提取或者可视化。

为了简单起见，我不在模型最后加上全连接层，虽然加上可以提高不少准确率。如果你想要更精确的模型，你可以加上试试。

下面是创建模型的代码：

训练模型

现在我们已经建好了模型，准备训练模型。由于模型包含两个输入层（一个是书籍输入，一个是用户输入），我们需要将训练集组合成一个数组作为 x 输入。在本文中，我对模型训练了 10 epochs，如果想得到更好的结果，你可以训练更长的时间。

下面是训练代码：

将嵌入可视化

嵌入可以被用来可视化一些概念，比如不同书之间的关系。为了可视化这些概念，我们需要减少向量维读，通过一些降维的技术，比如主成分分析（PCA），或者t-分布领域嵌入算法(t-SNE）。

从10000维开始（每一维是一本书），我们通过嵌入模型把它减少到5维，再通过PCA 或t-SNE 把它减少到2维。

首先，我们用 get_layer 函数来提取嵌入：

现在我们用PCA来把嵌入转化为2维向量，并且用Seaborn把结果画成散点图：

图4：Visualizing embeddings with PCA

同样的事也可以用t-SNE：

from sklearn.manifold import TSNE

图5：Visualizing embeddings with TSNE

进行推荐

使用我们训练的模型进行推荐很简单。我们只需要输入一个用户和所有图书，然后选择对该特定用户具有最高预测评级的图书。

下面的代码显示了对特定用户进行预测的过程：

这段代码输出：

导入图书 csv ，得到更多的信息：

print(books[books[‘id’].isin(recommended_book_ids)])

结论

嵌入是一种把离散的物体，比如单词，转化为连续值向量的方法。嵌入对寻找物体相似度，可视化等目标很有帮助，并且可以用来做另一个机器学习模型的输入。

这个例子肯定不是完美的，有很多方法可以被尝试来提高准确率。但对于高级的问题，用嵌入来学习输入是一个好的出发带你。

下面的方法可以得到更好的结果：

在点乘后加入全连接层
训练更多轮
对评分列做归一化
等等

如果你喜欢这篇文章，可以订阅我的youtube频道，并且在社交网络上关注我。

如果有任何问题，可以到我的twitter 上评论。

感谢Dipanjan (DJ) Sarkar.

点击阅读原文，获取原文代码

登录查看更多

相关内容

嵌入

关注 0

【KDD 2020】M2GRL: 一个多任务多视角图表示学习框架的Web-scale的推荐系统，M2GRL: A Multi-task Multi-view Graph Representation Learning Framework for Web-scale Recommender Systems

专知会员服务

29+阅读 · 2020年6月30日

【干货书】实战推荐系统，Practical Recommender Systems，432页pdf

专知会员服务

180+阅读 · 2020年4月17日

基于知识图谱的深度学习推荐系统研究，21页pdf，Deep Learning on Knowledge Graph for Recommender System: A Survey

专知会员服务

159+阅读 · 2020年4月2日

【资源】100+本免费数据科学书

专知会员服务

108+阅读 · 2020年3月17日

《强化学习—使用 Open AI、TensorFlow和Keras实现》174页pdf

专知会员服务

139+阅读 · 2020年3月1日

一网打尽！100+深度学习模型TensorFlow与Pytorch代码实现集合

专知会员服务

142+阅读 · 2020年1月3日

【新书】学习TensorFlow2.0，177页pdf，使用Python实现机器学习和深度学习模型

专知会员服务

224+阅读 · 2019年12月28日

【干货】谷歌Joshua Gordon 《TensorFlow 2.0讲解》，63页PPT

专知会员服务

28+阅读 · 2019年11月2日

Keras作者François Chollet推荐的开源图像搜索引擎项目Sis

专知会员服务

30+阅读 · 2019年10月17日

初学者的 Keras：实现卷积神经网络

Python程序员

24+阅读 · 2019年9月8日

推荐系统工程师必看！Embedding技术在深度学习CTR模型中的应用

AI前线

8+阅读 · 2019年5月26日

干货实践 | 计算机视觉花卉识别模型（代码分享）

计算机视觉战队

10+阅读 · 2019年3月13日

一文教你构建图书推荐系统【附代码】

机器学习算法与Python学习

10+阅读 · 2018年9月16日

推荐系统概述

Linux爱好者

20+阅读 · 2018年9月6日

【干货】一文教你构建图书推荐系统（附代码）

专知

28+阅读 · 2018年4月19日

深度学习时代的推荐系统

大数据技术

8+阅读 · 2018年1月6日

干货分享 | 详解特征工程与推荐系统及其实践（附PPT）

量子位

7+阅读 · 2017年11月19日

干货｜7步掌握基于Keras的深度学习！

全球人工智能

4+阅读 · 2017年11月14日

深度学习实战（二）——基于Keras 的深度学习

乐享数据DataScientists

15+阅读 · 2017年7月13日

M2GRL: A Multi-task Multi-view Graph Representation Learning Framework for Web-scale Recommender Systems

Arxiv

8+阅读 · 2020年6月1日

WaveTTS: Tacotron-based TTS with Joint Time-Frequency Domain Loss

Arxiv

3+阅读 · 2020年4月6日

Action Segmentation with Joint Self-Supervised Temporal Domain Adaptation

Arxiv

6+阅读 · 2020年3月18日

Learning in the Frequency Domain

Arxiv

11+阅读 · 2020年3月12日

A Baseline for Few-Shot Image Classification

Arxiv

7+阅读 · 2020年3月1日

Object Tracking in Satellite Videos Based on a Multi-Frame Optical Flow Tracker

Arxiv

5+阅读 · 2018年4月25日

AAANE: Attention-based Adversarial Autoencoder for Multi-scale Network Embedding

Arxiv

6+阅读 · 2018年3月24日

Hierarchical Label Inference for Video Classification

Arxiv

6+阅读 · 2018年1月21日

ParVecMF: A Paragraph Vector-based Matrix Factorization Recommender System

Arxiv

9+阅读 · 2018年1月10日

Learning Tree-based Deep Model for Recommender Systems

Arxiv

7+阅读 · 2018年1月8日

VIP会员