论文浅尝 | 打通推荐系统与知识图谱: 第一个公开的大规模链接数据集合

2018 年 8 月 3 日 开放知识图谱

本文转载自:RUC智能情报站,知乎专栏链接:https://zhuanlan.zhihu.com/RucAIBox



前言:近年来,知识图谱(KB)被广泛应用于推荐系统(RS),但尚未有公开将推荐系统物品链接到知识图谱实体的数据集。本文结合SIGIR2018论文《Improving Sequential Recommendation with Knowledge-Enhanced Memory Networks》所用数据集 [1],公布了相关链接数据集 [2],希望能对大家有所帮助。


一、动机/引介


近年来,学术界和工业界都致力于利用结构化的知识信息和相关领域的已知事实来提升各项应用。在众多数据形式中,知识图谱高度结构化,能够有效组织和关联相关实体,被广泛运用到各个领域。推荐任务中利用知识图谱提升推荐的质量和可解释性,相关的推荐系统被称为knowledge-aware recommender systems。

为了适应推荐系统和知识图谱相关研究需求,本工作启发式地将推荐数据中的物品链接到大型知识图谱中的实体,为推荐系统的物品提供蕴含丰富语义的结构化知识信息。本工作将其整理,发布为公开的推荐系统-知识图谱链接数据集KB4Rec v1.0。


二、数据集概况


KB4Rec v1.0数据集,构建了推荐系统数据集物品(RS item)到知识图谱实体(KB entity)的链接。在推荐系统方面,选取了三个得到广泛使用的数据集:MovieLens 20M [3]、LFM-1b [4]、Amazon book [5],分别对应电影、音乐和书籍三个领域;在知识图谱方面,选取了研究者常用的Freebase [6]。

KB4Rec v1.0数据集由链接的ID对组成,包括推荐系统的物品ID和Freebase中的实体ID。链接文件片段(电影数据集合MovieLens 20M)如下所示:


     25991	m.09pglcq
     25993	m.0cjwhb
     25994	m.0k443
     25995	m.0b7kj8


通过此链接,能够找到部分推荐系统中物品在知识图谱内对应的实体,并通过读取与该实体相关的三元组,获取相应的属性。举个例子,电影“阿凡达”通过链接找到相应实体,读出与之相关的三元组能够在知识图谱中找到相应的演员、导演等属性。

链接数据集(三个领域)的数据统计见下表:


三、链接分析


可以看到不是所有推荐系统中的物品都能够在Freebase中找到对应的实体。对于各领域链接比例(linkage ratio),本工作参照各推荐领域内物品流行度做了相关分析,其中物品流行度由推荐数据中与物品有交互记录的用户数代表。首先,将推荐系统中的物品按流行度升序排序,等分到5个桶(bin)中,展示相应部分链接比例。如下图,可以发现:流行度高的物品更倾向于被Freebase所包含。



针对MovieLens 20M数据集,还对电影的发布时间与链接比例做了分析。对所有电影按发布时间升序排序,等分到10桶(bin)中,展示相应链接比例。如下图所示,可以发现:越早发布的电影越倾向于被Freebase所包含。


四、数据获取


本工作将相关项目部署在github上,数据的获取和使用需遵照相关证书(license)。更多链接和数据集构建的细节请参照我们的相关论文 [2]。


五、相关论文


[1] Jin Huang, Wayne Xin Zhao, Hong-Jian Dou, Ji-Rong Wen, Edward Y. Chang : Improving Sequential Recommendation with Knowledge-Enhanced Memory Networks. SIGIR 2018: 505-514

[2]  Wayne Xin Zhao, Gaole He, Hongjian Dou, Jin Huang, Siqi Ouyang and Ji-Rong Wen : KB4Rec: A Dataset for Linking Knowledge Bases with Recommender Systems. Arxiv 1807.11141.

[3] F. Maxwell Harper, Joseph A. Konstan : The MovieLens Datasets: History and Context. TiiS 5(4): 19:1-19:19 (2016)

[4] Markus Schedl : The LFM-1b Dataset for Music Retrieval and Recommendation. ICMR 2016: 103-110

[5] Ruining He, Julian McAuley : Ups and Downs: Modeling the Visual Evolution of Fashion Trends with One-Class Collaborative Filtering. WWW 2016: 507-517

[6] Google : 2016. Freebase Data Dumps. developers.google.com/f data.


本文作者:何高乐,2018级研究生,目前研究方向为网络表示学习、深度学习,来自中国人民大学大数据管理与分析方法研究北京市重点实验室。


RUC 智能情报站由中国人民大学信息学院的赵鑫副教授 (微博 @赵鑫RUC) 所带领的研究小组维护。关注的领域是数据挖掘、社会计算和机器学习。该专栏会定期会分享相关学术内容,欢迎各位来邮件进行交流,也欢迎大家向该专栏投稿精品文章。知乎账号联系人为 窦洪健,负责资讯、投稿、宣传以及一切账号相关问题,邮箱为43404873@qq.com;企业和转载合作需求请致谢赵鑫老师,邮箱为 batmanfly@qq.com。赵鑫老师个人情况详见个人主页 http://playbigdata.com/batmanfly 和 http://info.ruc.edu.cn/academic_professor.php?teacher_id=55 。




OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

登录查看更多
14

相关内容

推荐系统,是指根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。推荐推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同,这些物品可以是新闻、电影、音乐、广告、商品等各种对象。推荐系统利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【SIGIR2020-微软】知识图谱上的增强推荐推理
专知会员服务
74+阅读 · 2020年5月30日
17篇知识图谱Knowledge Graphs论文 @AAAI2020
专知会员服务
171+阅读 · 2020年2月13日
专知会员服务
87+阅读 · 2020年1月20日
六篇 CIKM 2019 必读的【图神经网络(GNN)】长文论文
专知会员服务
37+阅读 · 2019年11月3日
知识图谱本体结构构建论文合集
专知会员服务
106+阅读 · 2019年10月9日
论文浅尝 | 基于知识图谱中图卷积神经网络的推荐系统
开放知识图谱
67+阅读 · 2019年8月27日
论文浅尝 | 5 篇顶会论文带你了解知识图谱最新研究进展
5篇顶会论文带你了解知识图谱最新研究进展
PaperWeekly
15+阅读 · 2019年2月21日
论文浅尝 | 知识图谱相关实体搜索
开放知识图谱
14+阅读 · 2018年12月18日
论文浅尝 | 推荐系统的可解释性浅谈
开放知识图谱
15+阅读 · 2018年11月27日
历史最全-16个推荐系统开放公共数据集整理分享
深度学习与NLP
22+阅读 · 2018年7月28日
资源|各领域公开数据集
七月在线实验室
5+阅读 · 2017年8月25日
Arxiv
92+阅读 · 2020年2月28日
Arxiv
20+阅读 · 2019年11月23日
Arxiv
14+阅读 · 2018年4月18日
VIP会员
相关VIP内容
【SIGIR2020-微软】知识图谱上的增强推荐推理
专知会员服务
74+阅读 · 2020年5月30日
17篇知识图谱Knowledge Graphs论文 @AAAI2020
专知会员服务
171+阅读 · 2020年2月13日
专知会员服务
87+阅读 · 2020年1月20日
六篇 CIKM 2019 必读的【图神经网络(GNN)】长文论文
专知会员服务
37+阅读 · 2019年11月3日
知识图谱本体结构构建论文合集
专知会员服务
106+阅读 · 2019年10月9日
相关资讯
论文浅尝 | 基于知识图谱中图卷积神经网络的推荐系统
开放知识图谱
67+阅读 · 2019年8月27日
论文浅尝 | 5 篇顶会论文带你了解知识图谱最新研究进展
5篇顶会论文带你了解知识图谱最新研究进展
PaperWeekly
15+阅读 · 2019年2月21日
论文浅尝 | 知识图谱相关实体搜索
开放知识图谱
14+阅读 · 2018年12月18日
论文浅尝 | 推荐系统的可解释性浅谈
开放知识图谱
15+阅读 · 2018年11月27日
历史最全-16个推荐系统开放公共数据集整理分享
深度学习与NLP
22+阅读 · 2018年7月28日
资源|各领域公开数据集
七月在线实验室
5+阅读 · 2017年8月25日
Top
微信扫码咨询专知VIP会员