如何用机器学习方法,提升另一半的满意指数?

2017 年 8 月 28 日 机器学习研究会

阿里妹导读:今天是七夕情人节,我们来探讨一个严肃又甜蜜的重要问题,一个你可能正在关注、或者终要关注的人生课题:如何用机器学习方法,为你生命里的另一半,挑选最适宜的母婴产品,提升幸福满意指数。

 

背景介绍


生命阶段在消费行为中的重要作用已经在营销和社会学中被研究了几十年。虽然这些研究并没有关注消费者的行为,但是他们研究了各种人和事件的生命周期,这为研究生命阶段对消费者行为的影响提供了坚实的基础。在电子商务中,比起用户的生命阶段转变,更多的研究侧重于根据消费者的历史行为进行商品推荐。


例如,电商公司会挖掘具有相似偏好的用户,并根据其他相似用户的偏好对当前用户进行推荐。而对于消费者生命阶段与消费者行为之间关系的研究才刚刚开始,在这些研究的驱动下,我们提出了一种可用于电子商务中生命阶段推断的动态融合算法。


我们使用多元逻辑回归模型对婴儿的生命阶段进行分类预测、产生相应的概率分布。此外我们还开发了动态融合方法以不断提高预测精度,并且可以有效地提高计算效率。每次有新的概率分布生成后,我们会更新然后维护多个概率分布。这样做可以识别消费者的短期兴趣,而且对于多个孩子的生命阶段预测也是非常有帮助的。


为了评估算法的有效性,我们进行了大量离线和在线的数值实验,这些实验表明我们的方法可以显着提高消费者生命阶段推断的准确性。


本文的主要贡献

1.      我们为生命阶段推断提供了工业级别的解决方案。

2.      我们开发了一种动态融合方法,可以在大幅节省计算资源的基础上不断提高预测精度,并且可以方便地维护对多个孩子年龄阶段的预测。

3.      我们通过实际数据验证了我们的解决方案对生命阶段推断的有效性。

 

母婴用户生命阶段划分


用户行为会随着生命阶段而改变,消费行为的转变通常与生命阶段的转变一致,这种现象在母婴这样的垂直行业中更为显著。例如,妈妈们会在婴儿刚出生时购买尿布;而在23年后,当婴儿要上幼儿园的时候,妈妈们会购买更多的衣服和鞋子。消费者行为随着生命阶段改变的现象不仅仅存在与母婴行业,在其他行业例如家装和汽车也有相同的现象。在本文中,我们将重点关注母婴行业,即基于父母的消费行为推断婴儿的生命阶段。



根据我们的行业认知,一个孩子的生命阶段发展是一个与年龄密切相关的连续过程。因此我们将母婴用户的生命阶段根据孩子的年龄分为以下几个阶段:出生前(妈妈的孕期);0-6个月(新生儿);6-1个月;2-3岁(托儿所);3-7岁(幼儿园)。不同年龄段孩子的父母会对不同的商品感兴趣,如果我们可以准确预测他们孩子的年龄段并推荐合适的商品,就可以大幅提高转化率。

 

动态融合方法


为了推断一个孩子的生命阶段,我们开发了一种不断预测并且不断改进推论的算法。与使用复杂模型进行一次性预测的方法不同,我们的算法每次会根据当前的数据产生一个较好的预测结果,然后不断地更新我们的推论,这就是所谓的动态融合过程。下面将会具体介绍动态融合过程的细节。



与单个预测结果相比,对孩子生命阶段预测的概率分布包含了更多的信息。比如说当分布中有两个生命阶段的概率都较高时,这表明消费者可能有两个孩子,或者消费者的孩子正处于两个生命阶段的交界处,但我们不能从单个预测结果中得到这些信息。保留这些概率分布可以推断用户孩子的生命阶段,并且可以让我们在合适的时候更新推论。然而消费者在不同月份的行为很可能导致不同分布中概率最高的生命阶段是不同的,如何维护和更新这些分布成了我们解决方案的关键。因此我们设计了动态融合算法来解决这个问题。


以特征向量X作为输入,我们可以通过模型预测单月概率分布,我们将在下一节中介绍模型的训练细节。现在假设我们已经有的概率分布,并且当下个月结束时,模型会产生另一个概率分布 。有了这两个分布后,为了将它们进行融合,首先需要将之前的分布进行平移,平移方式由下式给出:      

                     (1)

         

其中∆ 是之前分布产出时间与当前月份的时间差。平移概率分布的方法有好几种,在Algorithm 1中对我们使用的方法进行了详细介绍。


然后我们会比较平移后的分布,如果两个分布具有最高概率的生命阶段是相同的,也就是说:

              

这样的话我们就可以将这两个分布融合在一起:

        (2)


其中用于对新分布进行归一化。如果多个分布概率最高的生命阶段不同,那多个分布都会被保留以便将来可能的融合。我们会记录每个分布融合的次数,推断的生命阶段由融合次数最多的分布决定。当新的单月分布生成时,将按照相同的逻辑进行算法的下一次迭代。

 

特征工程


在电商场景中,所有的特征都来自消费者的五大类行为:搜索、点击、收藏、加购和购买。我们使用的特征分为以下几类:


1.类目特征


在淘宝的类目体系中存在多级类目结构,其中一级类目包括衣服、鞋子等主要的大类;类目级别最多可达到4个或5个,没有子类目的最低级别类目称为叶子类目。理论上我们可以使用商品ID作为特征,但是这会导致特征矩阵过于稀疏,只有极少量的样本会包含某些特征。为了避免这种情况,同时仍然能捕捉到用户不同的消费兴趣,我们使用商品对应的一级类目和叶子类目作为特征。


2.类目属性特征


相同类目下的商品会共享一些属性:例如商品的品牌属性可能是IBMNew Balance等具体品牌,商品的尺寸属性可以是“S”、“M”或“L”。类目属性特征是指商品类目和属性的组合特征,我们把母婴行业中所有的类目属性特征作为模型的输入。



         

3.商品属性特征


除了类目属性特征,我们还将商品本身的属性作为输入特征。


4.搜索词特征


搜索词是指用户用于搜索的关键词,可能会直接对应孩子的年龄段,例如“3岁宝宝的衣服”、“3段奶粉”等,我们会选取一些特定的关键词作为输入特征。


5.商品标题特征


商品标题包含了丰富的信息,其中可能也包括年龄段或者生命阶段相关的信息。我们整理了大约200个年龄段相关的关键词,对标题进行相关处理后作为输入特征加入模型。


6.时序特征


消费者在不同日期购买相同的商品也有不同的含义,一个妈妈在6个月前购买尿布和在1周前购买尿布的含义是不同的。因此不同月份的行为也被归为不同的特征,为了减少模型训练时的计算负担,我们使用了用户最近一个月的所有行为和去年同月的购买行为作为输入特征。

 

值实


为了证明我们设计的方法是有效的,我们利用半年的taobao.com的数据做了多组实验(从2016年9月到2017年2月)。图一和图二分别简要说明了训练数集和测试数集中婴儿生命阶段的分布。

点击“阅读原文”查看全文


转自:阿里技术

登录查看更多
0

相关内容

专知会员服务
145+阅读 · 2020年6月15日
【UCLA】基于深度神经网络的工业大模型预测控制,36页ppt
【中国人民大学】机器学习的隐私保护研究综述
专知会员服务
131+阅读 · 2020年3月25日
【阿里技术论文】AliMe KBQA:阿里小蜜中的结构化知识问答
专知会员服务
82+阅读 · 2019年12月14日
AutoML:机器学习的下一波浪潮
AI前线
9+阅读 · 2019年4月27日
2019,再不做私域流量就晚了?
互联网er的早读课
16+阅读 · 2019年4月10日
【机器学习】如何通过机器学习预测维护设备?
产业智能官
16+阅读 · 2018年7月9日
三大特征选择策略,有效提升你的机器学习水准
深度学习世界
8+阅读 · 2017年10月24日
【大数据】如何用大数据构建精准用户画像?
产业智能官
12+阅读 · 2017年9月21日
A Survey on Deep Learning for Named Entity Recognition
Arxiv
73+阅读 · 2018年12月22日
Arxiv
3+阅读 · 2018年10月18日
Arxiv
12+阅读 · 2018年9月5日
Arxiv
4+阅读 · 2018年5月14日
VIP会员
相关资讯
AutoML:机器学习的下一波浪潮
AI前线
9+阅读 · 2019年4月27日
2019,再不做私域流量就晚了?
互联网er的早读课
16+阅读 · 2019年4月10日
【机器学习】如何通过机器学习预测维护设备?
产业智能官
16+阅读 · 2018年7月9日
三大特征选择策略,有效提升你的机器学习水准
深度学习世界
8+阅读 · 2017年10月24日
【大数据】如何用大数据构建精准用户画像?
产业智能官
12+阅读 · 2017年9月21日
相关论文
Top
微信扫码咨询专知VIP会员