作者简介
研究背景
产品属性是与产品相关的用于定义和区分产品的一组特征,如尺寸、颜色、款式、适用场景、年代、事件等。这些属性在电子商务的消费者的购买决策中起着重要的作用,它们在产品推荐、个性化搜索、广告等方面也很重要。一项关于电子商务研究结果表明,约20%的搜索失败可能是由于缺少或不准确的电子商务产品的属性导致的。为了提高搜索性能,降低用户的搜索失败率,产品属性预测算法对电子商务具有重要意义。
在阿里巴巴大量的实际应用中,我们发现在电商场景中的产品属性有两种,分别为“具体属性”和“抽象属性”,如图1所示。具体属性是有形的,一般描述产品的一些可见的特征,如尺寸、颜色、材质等。而抽象属性则通常描述人为定义的产品的一些无形特征,如应用场景、适用事件、泳装类型等。一般来说,与具体属性相比,抽象属性更难从产品标题或产品介绍中提取。然而,抽象属性更符合用户对产品的期望和搜索习惯。例如,用户更倾向于使用关键字“泳衣 温泉” 来描述他们的需求和偏好,而不是“红色 尼龙 泳衣”。因此,属性预测,特别是对抽象产品属性的预测,对于电子商务的实际应用具有重要意义。根据我们的调查,现有的研究中很少有关注在产品的抽象属性生成,业界(包括阿里巴巴)目前普遍都是通过手工标记的方式给产品添加抽象属性。
图1.产品的具体属性和抽象属性
本文提出的系统架构
图2.SAN 的结构图
我们在真实世界的电子商务数据集上进行了广泛的实验。如表1所示,实验结果表明SAN的性能明显优于现有方法,可以为电子商务产品提供更快、更准确的产品抽象属性标记服务。这些可以促进属性标记的数字化转型,提高搜索性能,降低用户的搜索失败率。
应用推广
除了本文描述的应用场景,SAN模型及其提取的抽象产品属性在电子商务场景中还有其他广泛的应用。
相关资源
本文官方Pytorch实现在Github上面的开放源码链接:
https://github.com/zxjwudi/SAN-for-Product-Attributes-Prediction
随本文的发表同时开源的还有一个优质的电商用户交互数据集,该数据集搜集自阿里巴巴的淘宝网,它是中国最受欢迎的电子商务网站之一。在这个数据集中,有1,897,339条用户交互记录。每个交互记录都包含一个查询、一个用户ID、一个产品ID、一个产品标题以及该产品的相应属性集。现有的大多数开源产品属性集都来自于爬行时尚产品属性和描述,或者直接从大型网购网站的标题中提取。而我们的数据集中的属性是由时尚和服装专家手工注释的,所以这个数据集拥有很好的准确性和质量。阿里用户交互数据集链接:
https://github.com/zxjwudi/Alibaba-Custermers-Interaction-Dataset
编辑 | 钟 鹏