推荐召回场景-FM Embedding实现方案

2020 年 1 月 16 日 凡人机器学习

好多同学最近私信我,希望我能把推荐的技术架构系列文章补全--欠账太多,实在太忙了,等我稍微闲一点再给大家分享,先看看基于PAI近期上线的一个FM Embedding功能,这个也是推荐领域目前最fashion的召回策略哦~

背景

被实验案例的数据和完整实验流程已经内置于PAI-Studio建模平台https://data.aliyun.com/product/learn

进入PAI-Studio,首页模板最下方位置点击从模板创建“推荐场景-FM向量召回”开箱即用:

智能推荐分为排序和召回两大模块,在召回模块中通常会采用将 用户User和待推荐的 内容Item 分别以向量表示,然后通过User和Item的向量乘积大小作为User对Item的感兴趣程度的判断。本案例介绍如何基于真实的推荐场景数据,通过使用PAI平台提供的FM算法和Embedding提取算法产生User和Item的描述向量。

详细流程

完整业务流程图:

1.数据说明

原始数据如图:

数据字段描述:

  • userid:user的id信息

  • age:user的年龄

  • gender:user的年龄

  • itemid:item的id信息

  • price:item的价格

  • size:item的大小

  • label:目标列,是否购买,1为买,0为未买

2.One-hot编码

One-hot编码可以将字符型数据转成数值型表示,在FM-Embedding方案中首先利用“onehot编码-1”针对全量数据进行编码,生成编码模型再输入到“onehot编码-2”和“onehot编码-3”中,“onehot编码-2”需要选择User对应的特征信息进行编码,“onehot编码-3”选择Item对应的特征信息进行编码。

“onehot编码-2”的输入是userid、gender、age,附加列选择userid。

“onehot编码-3”的输入是itemid、price、size,附加列是itemid。

3.FM训练

正则化和维度这两个参数有3个参数,分别对应常数项、一次项和二次项。其中维度的第3个参数“10”代表生成的Embedding的维度。

4.Embedding提取

  • Embedding向量id列名:输入左桩FM训练中的模型“feature_id”

  • Embedding向量列名:输入左桩FM训练中的模型的“feature_weights”

  • 权重向量列名:输入右桩对应的稀疏化数据列

  • 输出结果列名:输出的Embedding字段名

最终输出结果:

总结

使用PAI提供的整套FM-Embedding方案可以在推荐业务场景中快速挖掘出User和Item对应的特征向量,在实际召回模块只要做User和Item的特征向量积就可以得到打分结果。


登录查看更多
3

相关内容

FM 2019是正式方法欧洲(FME)组织的系列国际研讨会中的第23次,该协会是一个独立的协会,旨在促进软件开发正式方法的使用和研究。官网链接:http://formalmethods2019.inesctec.pt/?page_id=565
【SIGIR 2020】 基于协同注意力机制的知识增强推荐模型
专知会员服务
89+阅读 · 2020年7月23日
专知会员服务
118+阅读 · 2020年7月22日
【SIGIR2020】LightGCN: 简化和增强图卷积网络推荐
专知会员服务
72+阅读 · 2020年6月1日
【SIGIR2020-微软】知识图谱上的增强推荐推理
专知会员服务
74+阅读 · 2020年5月30日
专知会员服务
87+阅读 · 2020年1月20日
初学者系列:Deep FM详解
专知
108+阅读 · 2019年8月26日
推荐召回算法之深度召回模型串讲
AINLP
22+阅读 · 2019年6月14日
推荐系统产品与算法概述 | 深度
AI100
11+阅读 · 2019年6月13日
各厂推荐算法!
程序猿
17+阅读 · 2018年1月13日
LibRec 每周算法:NFM (SIGIR'17)
LibRec智能推荐
7+阅读 · 2017年10月17日
DNN个性化推荐模型
产业智能官
7+阅读 · 2017年5月19日
Next Item Recommendation with Self-Attention
Arxiv
5+阅读 · 2018年8月25日
Arxiv
8+阅读 · 2018年5月15日
VIP会员
相关资讯
初学者系列:Deep FM详解
专知
108+阅读 · 2019年8月26日
推荐召回算法之深度召回模型串讲
AINLP
22+阅读 · 2019年6月14日
推荐系统产品与算法概述 | 深度
AI100
11+阅读 · 2019年6月13日
各厂推荐算法!
程序猿
17+阅读 · 2018年1月13日
LibRec 每周算法:NFM (SIGIR'17)
LibRec智能推荐
7+阅读 · 2017年10月17日
DNN个性化推荐模型
产业智能官
7+阅读 · 2017年5月19日
Top
微信扫码咨询专知VIP会员