分享嘉宾:陈强 阿里巴巴 高级算法专家编辑整理:赵冬月 河北农业大学出品平台:DataFunTalk **导读:**阿里在电商、线上零售领域有着海量丰富的商业要素数据,主要包括商品、店铺、交易、营销等,如何更好地组织管理这些生产要素,高效、低成本挖掘出有价值的知识,是个非常有意思且有挑战的工作。今天将以电商行业为背景,结合当下电商一些新的发展趋势,介绍阿里数字商业知识图谱构建的方法论,依托藏经阁研究计划,也会重点介绍在工业界如何落地和实施千亿级别知识图谱的实践,最后面向广大知识图谱产业和科研工作者,开放阿里电商部分数据集(kg.alibaba.com),希望推动相关领域高质量发展,开放促进互联。全文会重点围绕以下三点展开:
知识图谱构建背景
知识图谱构建
数字商业知识图谱开放共享
01****知识图谱构建背景
过去一两年,整个电商领域发生了很多变化,这些变化促成了消费电商的加速进化,在进化的同时,也面临了更多挑战,在这种背景下,知识图谱该如何演进升级也成为产业界关注的重点。 ** 1. 内容、兴趣电商兴起**
我们可以看到包括直播电商在内的内容电商在过去的几年整体渗透率以及市场规模逐年高速增长,这种新型的导购形式给消费者带来了很多购物行为方面的变化。 2. 消费观念的变化
最大的变化是消费观念,消费者不再仅是简单的需求驱动或者货架式搜索,在追求优质品质之外,可能一个东西非常好玩,或是外观漂亮,又或者智能、充满想象力,就有可能激起消费者的购买需求。所以消费者的需求越来越精细化、个性化。零售市场也更分化、去品牌,越来越追求个性,整体的物质供给也进一步的极大丰富。面对新的消费格局,阿里也遇到了一些更多更大的挑战和问题。 3. 挑战
① 标准化程度不够
虽然上层消费者的需求和购买商品极大丰富与个性化,但越个性化越丰富的情况下,对标准化就提出了更高的要求和挑战。一定的商品标准化,能够促进更大范围内的商品流通以及信息互通互联,只有让商品流通起来,才能够挖掘发现更大的商机和价值,这在今天的场景之下显得尤为重要。因此,在新的变化下,阿里面临着标准化程度不够的挑战。 具象化几个情况,比如现在的类目越来越复杂,品类越来越多,越来越精细化,商家有时会无从选择,不知道该如何快速地选择最适合自己的品类。 面向平台运营,整体的类目属性体系(Category-Property-Value,简称CPV)的管理有时也会跟不上市场的变化,因为之前这套体系都是通过行业运营、行业领域专家手工梳理,但现在的变化太快,每隔一段时间就会出现新的品类、新的元素、新的概念,因此cpv管理需要能够动态化,能够更快地捕捉市场上的变化,给到行业运营更加智能化的策略和建议。 另外,目前很多的商品管理代替了商品定义,商品管理体系的调整和前台的商业模式包括玩法、营销、组织架构可能都会有关联,有时会脱离商品本身的客观定义,会出现一些分类维度不一致、同质类目等情况。 最后阿里所服务的市场形态是非常多的,每个市场业态给消费者提供的服务也存在一定的差异化,这种差异就会导致商品或商户上的信息的差异分布。为了更好地让这些信息流通起来,有一部分知识能够泛化复用,从而给消费者提供更好的服务,面向市场管理差异所导致的商品信息差,也希望用一定的标准化的数据去解决这些问题。 ② 信息结构化不够精准丰富
第二个挑战是在商品信息结构化方面。更加多元化、个性化的购物需求,有时会导致商家商品运营变得比较困难。比如淘宝中有些商家为了更好地满足消费者多元的消费需求,会做一些关键词的堆砌,而从消费者的视角来看,标题的可读性可能会不太好。再比如一个非常正常的商家经营需求,售卖茶壶的同时希望能够顺带卖茶杯,但是由于平台做的还不够精细化和结构化,销售属性只有一个颜色分类,商家目前也只能先暂时放在颜色分类下去售卖茶杯,这会给消费者带来一些困惑和购物体验上的不便,这也是阿里近期希望重点解决的,通过提升商品语义化、结构化的程度,从而提升消费者的购买体验。
③ 特性和个性缺乏结构化表达
第三个挑战是商品的特性缺乏一些结构化的表达,在多元化、个性化的市场背景之下,客观不变的信息就是标准化那部分,变化的就是个性化的表达。我们希望通过知识图谱的技术能够对这一部分做一些结构化的组织和表达,一方面更好地理解我们的商品,另一方面可以更好地匹配消费者的购物需求,更加精细化地运营商品,帮助商家更好成长。 02****知识图谱构建
下面重点介绍阿里数字商业知识图谱的升级和相关工作。 1. 数字商业知识图谱升级
在这样大的机制和模型设计之下,数字商业知识图谱大致如上图所示。通过知识图谱去管理和组织庞大的商业要素。大概会分成四层: ① 第一层本体层,即商品知识图谱的schema,这一层的数据建设主要需要解决的问题主要有: * 如何智能化地动态更新schema,使得这棵schema树能够快速高效地捕捉、洞察市场新趋势、新变化。 * 阿里各个业态都有自己的商品、店铺CPV,如何建设标准的schema,让不同市场的商品数据能够通起来,如何做跨市场类目归一、属性归一。 * 之前的schema设计多数都是类目属性体系,其能够较为全面准确地刻画商品偏客观部分的认知和理解,但随着个性化、精细化需求越来越多,如何捕捉刻画商品偏主观部分的认知和理解,也是未来亟需解决的难点和问题。
② 本体层之下是概念层,具备某个相同属性的一类商品可以抽象概括为一个概念,比如适合「约会」的商品,有「保湿」功效的商品,「杨幂代言」的商品等等,其具备一定的泛化性,可解释性,抽象性,且概念与概念之间有各种关系,例如「人群=0-3个月宝妈」需要「尺码=NB,品类=尿不湿」,「成分=玻尿酸,品类=面霜」具有「功效=保湿」等等,这些共同构成了概念图谱。科研界也有类似常识图谱的概念,这一层主要作用就是将存在于零售导购人员或者行业运营脑海中的知识或者经验进行数字化,用概念、概念-概念之间的关系去描述这种知识/经验,这一层主要需要解决的问题主要有: * 如何确保概念图谱的丰富性,快速高效地捕捉市场上最新的元素、概念。 * 如何高效地挖掘概念图谱里的「知识三元组」,即做大规模的知识挖掘。
③ 实体层,更多是指具体的生态内的每一个商品、每一个店铺、每一个门店,这一层的实体规模非常巨大,规模在百亿级别,这一层需要解决的问题主要有:
如何确保这么大规模的海量商品数据与schema层、概念层的挂载准确丰富,即构建商品/店铺 profile。 * 如何面对海量商品数据构建高可用跨渠道的商品关系服务,其中尤以同款关系最为重要。
④ 事件层是客观生活当中的一些事件,包括对环境做的一些数字化的工作。 2. 本体层
本体层要解决的一个核心挑战点是提升标准化程度。之前阿里的每个业态,包括淘宝、国际化、本地生活等,都有独立的类目属性去管理,之间没有交互,数据也不通,因此为了能够让商品流通起来,我们进行了一些探索和试错,大概经历如下几个阶段: ① 相互独立:不同市场体系两两之间建立映射关系,这样的方案优点相对比较直接,信息损失较少,缺点是成本较高,运营维护不方便。 ② **关系互通:**从各个市场schema体系中,抽象沉淀能够满足大部分业务基本需求的相对标准的知识体系,即标准CPV,然后通过标准CPV体系和每一个渠道CPV建设映射关系,优点是相比方案1,成本相对有所降低,N个市场只需要建立N个映射关系即可,缺点是标准较难确定,信息损失较大。 ③ 共享+个性定制:在方案2的基础上,希望未来一些新市场需要构建自身市场的类目属性体系时,可以先参考借鉴标准CPV,帮业务快速建设到60分,然后60分-90分个性化、精细化的部分,业务可以根据自身需要和市场特点进行个性定制和延展,这样能进一步降低各市场信息互通的成本,同时又保持各市场个性化的定制和需求。 3. 概念层
在构建概念图谱之前,首先要想清楚要构建的概念的范围和约束是什么,因为人类社会抽象沉淀下来的概念实在太多,凡事万物皆可概念化,「天空」「白云」「桌子」「美好」可能都是一种概念,那我们到底要建设哪些概念,建设到什么程度才算建设完成。对于这个问题的回答,核心还是看所要解决的场景和问题是什么。 对于阿里数字商业知识图谱而言,所服务的核心场景依然是导购,希望帮助平台更好地理解商品,更好地进行人货匹配,因此要构建什么样的概念图谱首先要研究消费者决策理论,去洞察消费者在购买决策过程中核心的决策节点有哪些,好在传统零售,很多经济、市场学家已经有相当成熟的方法论去阐述这个问题,我们要做的就是将这套理论数字化、智能化。 通过对霍华德一谢思模式对消费者购买决策的理论分析,我们最终将其数字化建模成以下几个步骤及环节: * 需要认识
购物需求的建模,什么人(人群实体)在什么地方(地点实体)什么时间(时间实体)做什么事(事件实体)。 * 信息收集
有了需求之后可能就会随之而来产生购物的需求,比如约会需要穿连衣裙,带首饰,生孩子需要奶瓶、奶粉、奶嘴等等,而目前往往消费者对这部分的拆解都是通过百度、知乎、宝宝树、朋友等一些其他通用搜索或者垂直领域app获取了解的,那这里从需求拆解到品类,甚至细分品类(属性项属性值+品类),例如连衣裙、斩男色的口红、佳能的相机、硅胶的奶嘴、牛油果绿的连衣裙。 * 方案评估
这里主要是从品类众多商品中选择一个最适合自己的产品,例如需要买相机,是买「佳能5D2」还是「索尼奶昔7」。 * 购买决策
如果确定要买哪款产品了,需要解决的问题主要是平台上的商品、sku太多,如何快速让消费者在众多选择中选择一个最适合自己的,这里主要涉及一些商品item颗粒度上的认知和刻画,比如一些热点主题标、服务标、营销标、资质标、价格、商户/商家标。 * 购后行为
这块主要就是评价,需要构建评价标签体系。 4. 藏经阁知识引擎研究计划
由于阿里的商品数据规模比较庞大,如何构建千亿级别规模的垂直领域知识图谱,之前在产业界一直没有特别好的方法论和最佳实践,2018年我们联合清华大学、浙江大学、中科院自动化所、中科院软件所、苏州大学等五家机构,联合发布藏经阁(知识引擎)研究计划,我们和高校老师一起把知识引擎技术定义为五大技术模块(知识获取、知识建模、知识推理、知识融合、知识服务)并开发落地,具体技术框架如下:
知识建模
该模块核心任务主要是从不同类型的多源数据中,构建生成领域知识体系。领域知识体系的构建是对领域分类、属性以及分类之间关系的定义,因其具有很高的抽象性和概括性,目前高质量的知识体系多由领域专家构建而成,最近我们也在研究开发相关的智能化模块,希望能够帮助提升领域专家构建schema的效率,达到半自动化,甚至全自动化的程度。 * 知识获取
该模块核心任务主要是从各种多源异构的数据源中结构化出各种知识,这里的多源异构数据源可以是结构化数据(如链接数据、数据库数据)、半结构化数据(如网页html、xml、百科类数据等等)以及无结构化数据(海量的文本数据,甚至语音、图片数据等等),主要技术栈包括实体识别、实体链接、关系抽取、槽填充、事件抽取等。 * 知识融合
该模块核心任务主要是发现碎片化及异构知识之间的关联,获得更完整的知识描述和知识之间的关联关系,实现知识的互联、互补和融合,与知识获取最大的区别在于其输入数据是两个及多个结构化知识库,核心技术栈包括本体对齐、实体对齐、信息融合。 * 知识推理
该模块核心任务主要是构建面向大规模知识图谱的推理与计算引擎,基于已有知识、背景知识推理和发现未知的知识,其核心是在已有知识图谱上进行推理补全,核心技术栈包括知识表示、链接预测、知识推理、规则发现、XAI等。
5. 知识建模
在知识建模方面,其中一个比较重要的工作是能否高效大规模地识别关键属性。关键属性的定义是:能唯一确定一款产品的一组属性集合。整个算法核心有两大模块,一个是异质信息融合模块,它主要对标题以及商家填写的部分结构化的信息做向量化表示,主要是解泛化问题,因为有些商家可能不填商品属性,或者属性是稀疏的,抑或属性枚举值不够完善,希望通过向量化的知识表示做一定的泛化性。第二个是关键属性的推理模块,给一些卖家提报以及业务沉淀积累的同款商品训练语料,针对两个商品,做向量化表示之后,计算两者相关的距离计算,例如cos距离、皮尔逊系数、LP距离等,通过构建距离矩阵,再通过决策树识别判断这两个商品是否同款,而其中树模型背后的可解释的路径就是关键属性。
6. 知识获取
在知识获取方面,我们主要面临的挑战点有两个: ① 整体的实体类型规模非常大,涉及上千种的实体类型,如何降低这上千种实体类型的标注成本以及解决其中长尾实体类型识别准确率的问题还是挺有挑战和难度的。 ② 需要能够发现新实体,不光要能够识别已知知识库里的实体,也希望能够准确识别洞察市场上的新概念、新实体,这就对整体NER的OOV能力提出了非常高的要求。 因此我们提出了基于半监督局部标注的学习模型。面对上千种实体类型,不可能给每一种类型都去标注上万个训练语料,这样会导致训练语料的获取成本非常高。因此一般会采用远程监督的方式,但是远程监督会有错标、漏标等问题,尤其结合挑战2,我们会更关注漏标问题。 **针对远程监督带来的漏标的现象,我们引入局部标注的思路去解决。**传统的远程监督基本上是命中词库就会打BIOE标签体系,但如果不在词库里面,其实不代表它一定不是一个实体,局部标注的思路就是针对这部分数据,不是直接在训练语料里面标为O,而是可能标为一个unknown,然后通过self-training的学习方法,交叉标注完成对训练数据的迭代标注,即针对这部分标签去做一定的分类。如果能确定是或者肯定不是一个实体,那就把unknown转为对应的BIOE,其余不确定的有可能是一个新的实体的,则会有对应的概率分布,最后计算一个全局最优的标注结果。一定程度实现通过模型的自我学习、自我认知,实现较大程度的泛化,这就是通过局部标注和self-training的思想去解决远程监督带来的漏标的问题。 另外为了解决整体实体类型规模比较大,更好地识别长尾的实体类型,我们也借鉴了阅读理解的思路,给一段文本以及一个属性项,问这个文本里面哪个是属于这个属性项的。整个过程当中会对整个句子和属性分别编码,再用注意力机制去做彼此信息的交互建模,最大化地利用原文本和属性项的信息。 最后整个模型在一些公开数据集上面,取得了比较好的效果,尤其在OOV的识别性能上,比传统的一些NER方法好很多,这也给我们能够快速精准地发现市场上新实体带来了很大的支持。
7. 知识融合
在知识融合这部分,最核心基本的任务就是跨渠道的同款商品识别,即实体对齐任务。在这个任务上,我们主要面临如下几个挑战:
① 跨渠道信息差异大:由于跨渠道的schema和发布体系不一致,导致商品信息差别较大,例如:主图质量不一、存在牛皮癣、拍摄角度不同、标题书写风格多样等问题导致无法精准对齐。 ② 商品信息结构化程度不一:不同市场商品信息结构化程度差别较大,存在一定程度的信息漏填、错填以及不填,这给任务的鲁棒性和泛化性提出了更高的要求。
因此为了更好地解决这些挑战,肯定要尽可能多地融合商品的各个方面信息,不同来源的信息能够对商品信息做一定的补全泛化,解决部分信息漏填、错填的现象,同时能大大提升模型的鲁棒性和抗干扰能力。 因此团队提出了一种新的多模态预训练表征模型CAPTURE(Cross-modal contrAstive Product Transformer for instance-level prodUct Retrieval)。 现有的多模态预训练模型根据模型架构主要分为两个类别:单流式架构和双流式架构。
单流式架构采用一个Transformer同时处理图片和文本的数据,在该Transformer内部通过自注意力机制(self-attention)实现不同模态间的信息交互。双流式架构采用两个独立的Transformer分别来处理图片和标题数据,捕捉这两个模态各自的特性,然后再通过一些交叉注意力机制(cross-attention)实现不同模态间的信息交互,这里的交叉注意力机制指两个模态交叉注意,即使用文本模态的特征attention每个图片区域的特征,或使用图片的特征attention标题中每个单词的特征。关于这两种架构的优劣并没有定论,单流式架构在早期就将不同的模态信息进行融合,所以模态融合更加充分;而双流式架构能够在模态交互之前对不同模态数据进行不同的处理,具有较好的灵活性。 我们提出的CAPTURE采用“先对齐,再融合”的思路。具体的模型结构如上图所示,输入为图片和文本数据,图片首先经过一个目标检测器得到商品主体,然后将主体的位置信息和特征信息进行编码得到图片embeddings;在文本模态上,我们将文本的位置顺序和文本向量进行编码得到文本embeddings。CAPTURE模型在结构上和训练任务上都与现有多模态预训练模型不同。在结构上,CAPTURE将上述的单流式架构和双流式架构结合到一个模型上,分别堆叠 text/image transformer, cross-transformer, co-transformer三种网络架构来编码: * Text/image transformer分别输入文本和图片的embeddings,学习图文各自的特征 * cross-transformer通过交换multi-head attention中的key-value键值对来学习图片和文本中的关系 * 图片和文本的feature进行拼接,再输入到co-transformer中进行多模态特征的联合学习
我们使用大规模无标注的商品图片和文本数据来训练CAPTURE模型,然后再迁移到只有少量标注数据的同款检索任务上进行微调。我们对比了包括VILBERT,LXMERT,CLIP,VL-BERT,VisualBERT以及UNITER等多个现有的多模态预训练模型,为了公平对比我们使用了相同的实验设定,包括训练数据,迭代步数,模型层数以及特征维度。实验结果表明我们的模型在实例级别的检索任务上超过现有方法。多模态预训练模型CAPTURE等相关成果已经发表在ICCV 2021上(Product1M: TowardsWeakly Supervised Instance-Level Product Retrieval via Cross-Modal Pretraining)。 8. 知识推理
在知识推理方面,我们提出了一个知识显著性的度量模型,为什么要提出这个模型呢?我们知道传统的知识推理会用三元组的方式进行数字化建模,通用会用一些IE、关系抽取的技术来完成,但这些任务往往关注的是三元组的合理性,例如约会需要连衣裙,这是非常合理有效的,但是真正在业务使用的过程当中,又是不够的,因为不是所有的连衣裙都适合约会。如果给所有的连衣裙都打上约会,并且在前台进行透传的话,消费者是会困惑的,因此需要对知识三元组的显著性进行定义。 我们认为显著性通常由两方面的特性决定: * 充分性:常识在概念的大部分情况下都成立,如:大多数跑步都需要跑步鞋,大多数儿童吃饭都需要汤勺。 * 必要性:概念是常识成立的主要原因,如:跑步是需要跑步鞋的主要原因,儿童吃饭是需要卡通图案的汤勺的主要原因,开瓶器是需要喝酒的主要原因
我们提出了知识显著性模型PMI-tuning,分别针对充分性和必要性做了一定的数学建模,相关工作目前也已整理成论文投稿中。同时为了更好地评估显著性的效果,我们构建了相对应的显著性知识三元组数据集,也对社会进行了开放共享,后面章节会具体介绍
9. 应用落地
阿里数字商业知识图谱目前在阿里多个场景有落地,主要包括: * 商品智能发布
利用知识图谱更好的对商品、商户做结构化和语义化,商家在发布一个新商品的时候,能够通过知识图谱的技术快速对齐和链接到已有的产品数据信息,帮助商家快速补全商品信息,助力商家智能发布。目前这个功能已经帮助商家优化了两亿的商品,节省了20万人日工作量,大大提升商家体验。
精准购物引导
通过构建更加面向消费者侧、更加能够洞察和探测市场趋势的概念图谱的数据建设,沉淀了一套围绕电商场景的决策树体系,去辅助前台场景做商品导购,重构整个供需关系。整体的概念图谱目前覆盖淘系商品近20亿,支持淘宝/天猫搜索、猜你喜欢、榜单等31个流量场景,提升消费者体验。
商品实时管控
基于知识图谱多源信息融合和校验能力,能够更加精准地知道一个商品信息是否准确,从而更好地去治理管控商品,做商品的实时管控。
跨渠道商品流通铺货
通过跨渠道的图谱识别对齐能力,帮助商家拓宽一些销售渠道,实现跨渠道的商品流通铺货,从而实现全球一盘货。目前我们已累积帮助商家多渠道铺货经营商品17亿+,帮助商家节省了3500万人日工作量。
03
数字商业知识图谱开放共享
「开放促进互联,连接创造价值」,秉承“利用开放的商业知识发现社会经济价值”的理念,我们目前向全社会开放一部分阿里数字商业知识图谱的数据集及任务集,具体可以访问我们的网站:kg.alibaba.com 。 第一版本包含了超过18亿的三元组,多达67万的核心概念,2681类关系,后面还将持续维护与扩展,希望通过开放的方式,和科研界、产业界相关团队一起,推动知识图谱领域的发展,挖掘数据更大的价值,促进数字商务经济等领域的交叉学科研究,服务数字经济健康发展的国家战略需求。 我们还将基于该数据集建立面向垂域的知识图谱评测基准,包括但不限于商品常识知识显著性推理、基于知识图谱的商品同款挖掘、多模态商品知识图谱链接预测等,目前也已在今年CCKS相关图谱评测任务中进行发布开放,进一步促进知识图谱技术的发展和在更多垂直领域的应用,欢迎感兴趣的团队报名参加: https://mp.weixin.qq.com/s/ODYQdJTJQrglAE_sWb8g0g
04****问题
Q1:文本和图是怎样进行实体链接的,用到什么样的方法? A:在多模态部分,图文有一个映射关系就是提出的对齐和融合,希望图文之间是有映射的,能够更好地让图的信息去弥补文的信息的不足,多模态也是整个科研界或者产业界的研究重点,在这里的思路是先对齐后融合的一种方式去做预训练,然后对商品做多模态的知识表示。数据会用在知识对齐的任务,也会用在商品的类目预测。多模态做实体连接偏知识获取,现在是通过在图文里做一定的结构化,这一块刚起步,在文方面主要去做语义化和结构化的操作,图片是单独的一个模态,会单独去做语义化和结构化,但是图片需要先定义好schema,才能做一些训练任务。 Q2:阿里千亿级别大规模的商品知识图谱是如何存储以及进行高性能的计算推理的。 A:依托于阿里云,阿里云提供了非常高效灵活、多样化的数据存储方式,不拘泥于图数据库或者关系数据库,还是树方式去管理和存储,面对不同的业务需求,比如说导购,会存放在数据仓库里,用一些关系型的表去离线存储和管理千亿级别的图谱数据。但是面向实时管控,包括,包括导购认知、实时推荐的场景,我们会利用阿里云整体去做在线存储和管理,这部分量级肯定不会特别大。基本上是分层,分场景,分不同的领域,会用不同的存储和计算方案去解决。 Q3:如何进行知识图谱的更新。 A:更新的数据来源基本上来自于运营,消费者很多时候是硬式地给一些输入,比如搜索、点击,可以帮助我们更好地挖掘里面的知识,商家对于导购或者零售有自己的认知和理解,有些商家在商品信息里面包括标题、图片、详情,都会蕴含着非常新颖知识。我们的运营也是这个领域的专家,针对垂直领域,也会不断地给我们输入一些新的知识,让我们构建。我们整体的下一代的商品模型的核心也是希望通过整体机制的打造,包括模型的升级,能够从商家、运营、消费者的数据里面结合模型去挖掘一些知识,这是整体的更新。
今天的分享就到这里,谢谢大家。
分享嘉宾: