推荐｜网易云音乐分析之推荐算法

会员服务 ·

欧氏距离vs余弦相似度

在线下导购时代，导购员会通过系统的话术掌握消费者的情况，来推荐商品。

类比导购员推销时的思维逻辑，我们可以得到音乐推荐算法需要解决的三个核心问题：

将用户信息转化为用户类型；
了解曲目的归属类型；
将不同类型的用户与不同类型的曲目对应；

我们怎么量化两个事物之间的相似度呢？常见的方法是利用欧式距离和余弦相似度。

以A、B用户间相似度为例：

利用欧式距离时，我们把A、B用户看做两点，用两点间距离表示二者相似度。

使用余弦相似度时，则把二者看成同一坐标系下的两个向量。两个向量间夹角大小反应出他们的相似度，夹角越小则相似度越大。二维空间向量表示为r(x1,x2),多维空间向量表示为r(x1,x2…,xn)

比如，假设用户有5个维度

对流行的喜欢程度（1~5分），对摇滚的喜欢程度（1~5分），对民谣的喜欢程度（1~5分），对说唱的喜欢程度（1~5分），对爵士的喜欢程度（1~5分）。

用户A：对流行的喜欢程度3，对摇滚的喜欢程度1，对民谣的喜欢程度4，对说唱的喜欢程度5，对爵士的喜欢程度0，用户A可以用向量表示为r_A (3,1,4,5,0)

一个用户B：对服装的喜欢程度3，对家居的喜欢程度4，对3C的喜欢程度5，对图书的喜欢程度0，对化妆品的喜欢程度2，用户B可以用向量表示为r_B (3,4,5,0,2)

对于向量A和B而言，他们的在多维空间的夹角可以用向量余弦公式计算：

余弦相似度取值在0到1之间，0代表完全蒸饺，1代表完全一致。那么用户A和B的相似度计算：

即代表了两个用户音乐偏好的相似程度。

余弦相似度是一种很好的数据策略，对计算用户类型是很好的解决方法，我们来对比分析它和欧式距离。

上图中，我们反方向延长点A，很明显向量A和B之间夹角余弦值不变，但欧式距离发生改变。也就是说，利用欧式距离更能突出数值绝对差异，因此常用于歌曲间相似度的计算。

例如，喜欢A歌曲的用户数量是10000，喜欢B歌曲的用户数是20000，因为样本足够大，我们认为用户对歌曲喜爱的程度相同，也就是相同的分数，那么直接通过数量上的差异来计算相似程度即可。

由此可见，小到一个数学公式，大到一个数据模型甚至是推荐系统，都没有单纯的对错之分，只有是否适合产品需求，能在有限的计算量内结合情景满足预期。先入为主的方法论是数据策略工作中的大忌。

常见推荐方法

推荐和搜索本质有相似的地方：

搜索满足用户从海量数据中迅速找到自己感兴趣内容的需求，属于用户主动获取。
推荐则是系统从海量数据中根据获取到的用户数据，猜测用户感兴趣的内容并推荐给用户，属于系统推荐给用户。

本质上都是为了在这个信息过载的时代，帮助用户找到自己感兴趣的东西。

这里我们介绍四种常见的推荐方法：

基于歌曲的推荐
基于歌曲的协同过滤
基于用户的协同过滤
基于标签的推荐

1. 基于歌曲的推荐

基于歌曲的推荐是比较基础的推荐方法，根据我们播放收藏或下载的某类型的歌曲，推荐这种类型下的其他歌曲。

这种方式很容易被理解，但是比较依赖内部曲库完善的分类体系，且需要用户有一定的数据积累，不适用于冷启动。

2. 基于歌曲的协同过滤

协同过滤与传统的基于内容分析直接进行推荐不同，协同过滤会分析系统已有数据，并结合用户表现的数据，对该指定用户对此信息的喜好程度预测。

基于歌曲的协同过滤，通过用户对不同歌曲的评分（下载收藏评论分享对应不同分数）来评测歌曲之间的相似性。

基于歌曲之间的相似性做出推荐，一个典型的例子是著名的“啤酒加尿布”，就是通过分析知道啤酒和尿布经常被美国爸爸们一起购买，于是在尿布边上推荐啤酒，增加了啤酒销量。

计算用户u对歌曲j的喜爱程度：

N(u)表示与用户有关联的歌曲歌单等集合，w_ji表示歌曲/歌单j和i的相似度，r_ui表示用户对i的打分。

推荐时也要综合考虑其他业务数据，比如两首歌曲越多的被加入两个歌单，则认为两首歌越相似。

3. 基于用户的协同过滤

基于用户的协同过滤是通过用户对不同歌曲/单的行为，来评测用户之间的相似性，基于用户之间的相似性做出推荐。

这部分推荐本质上是给相似的用户推荐其他用户喜欢的歌曲，一句话概括就是：和你类似的人还喜欢下列歌曲。

计算用户u对歌曲i的喜爱程度：

N(i)表示对歌曲/单i有过行为的用户集合，w_uv是用户u和用户v之间的相似度，r_vi表示用户v对歌曲/单i的打分。

4. 基于标签的推荐

歌曲有标签，用户也会基于行为被打上标签，系统通过标签将二者关联。

根据标签进行推荐需要产品在初期就有标签概念，网易云音乐不同的曲目类型是天然的素材标签，通过对UGC内容的处理和对用户行为的数据分析则可以得到用户标签。

总结

在广场舞大妈都在谈论AI的时代，基于机器学习的推荐算法实在算不上风口。但是没有任何一种推荐方法或系统能适用全部的情形，在真正实现过程中一定要对算法有熟悉的掌握，另外和一些前辈的交流让我认识到，一个优秀的pm必备的素养之一就是对每一条业务线深刻的理解。

在构建一个推荐方法时，我们一般会用到加权、降权、屏蔽。一个方法是否能支持灵活调节权重，后期是否能持续迭代，都是要通过不断的测试验证，最终让数据说话。

根据一些用户反馈和我自身的使用感受，提一些建议：

网易云音乐推荐算法把用户最近的行为权重置高，因此系统容易大量推荐相似类型的歌曲，使用户审美疲劳、兴奋度降低。建议在算法中加入用户使用场景的分析，并对同类型歌曲出现的次数、位置加以限制；
针对长尾冷门歌曲，由于数据量相对较少，更要重视效果反馈；深度挖掘数据，丰富推荐元素，比如根据某位用户喜爱歌手的创作/成长背景，推荐影响该歌手的音乐、专辑、歌手；

网易云的情怀令人欢喜，在商业化的今天弥足珍贵。祝越来越好。

最后，万望不吝赐教。

———— / END / ————

作者：狮子田，武汉大学研究生一年级在读

本文由 @狮子田原创发布于人人都是产品经理。未经许可，禁止转载。