领域应用 | 机器知道哪吒是部电影吗？解读阿里巴巴概念图谱AliCG

会员服务 ·

领域应用 | 机器知道哪吒是部电影吗？解读阿里巴巴概念图谱AliCG

2021 年 7 月 1 日 开放知识图谱

转载公众号 | PaperWeekly

概念是人类认知世界的基石。比如对于“哪吒好看吗？”，“哪吒铭文搭配建议”两句话，人可以结合概念知识理解第一个哪吒是一部电影，第二个哪吒是王者荣耀的英雄。然而机器能理解吗？

针对这一问题，浙江大学和阿里巴巴的算法工程师们一起提出了一种全新的自动化概念图谱构建方法，其能够自动的从海量文本及半结构化数据中构建细粒度的中文概念层次结构，相关技术的论文已经被国际顶会 KDD 2021 录用。

论文标题：

AliCG: Fine-grained and Evolvable Conceptual Graph Construction for Semantic Search at Alibaba

收录会议：

KDD 2021

论文链接：

https://arxiv.org/abs/2106.01686

提出的相关技术同时支持了阿里巴巴商品知识图谱的建设，应用于细粒度商品标签的获取、挖掘和更新等任务。阿里巴巴商品知识图谱拥有千亿级别的实体和关系，为不同业务商品数据的组织和管理起到了重要作用，并获得了 2020 年度钱伟长中文信息处理科学技术奖和 2020 年度 ECR 中国零售供应协会创新项目奖。

背景

概念是人类认知从具体进入抽象的第一步，也是人类认知世界的基石。概念知识图谱是一种特殊的知识图谱，在语义搜索、自动问答等场景具有广泛的应用价值。例如，微软开发了 Microsoft Concept Graph [1] 可以帮助机器更好地理解人类语言进而提升语义理解效果。网络搜索引擎（如谷歌和必应）利用概念分类来更好地理解用户查询并提高搜索质量。

此外许多电商平台（如阿里巴巴 [2] 和亚马逊）将产品分为不同粒度的层次结构，以便客户可以轻松地搜索和导航不同分类，找到他们想要购买的商品。然而，以往的概念图谱构造方法 [3] 通常只从文本中抽取高频率、粗粒度和静态的概念实例。在实际应用中，其较难覆盖长尾和细粒度概念信息，且存在更新困难的问题。

具体的说，以往的方法面临以下三个挑战：

细粒度概念获取。 不同于粗粒度概念，细粒度的概念有助于提升搜索的召回率。例如，“围巾”是一件“服饰”，我们较难获取“围巾”的细粒度上级概念“保暖服饰”，这些细粒度概念很少被现有的概念图谱所覆盖。

长尾概念挖掘。 传统的概念抽取方法通常是基于 Hearst 模板提取概念。然而，这些方法较难从带噪声的开放语料中提取长尾概念。

自动概念更新。 传统的方法无法随着时间的推移更新概念的信息。例如，“哪吒”在不同的时期有着不同的含义，可以指神话作品人物或者上映影片。因此，必须将时间演化纳入概念分类体系构建中。随着时间的变化，我们需要对齐概念图谱中具有相同含义的节点，并估计给定实例中概念的置信度分布。

AliCG

阿里巴巴的概念图谱 AliCG 由海量的概念核心实例、数万的细粒度概念和概念-实例三元组组成，这些数据包括了常见的人物、地点等通用实例。

相较于传统的知识图谱，AliCG 包含大量中文细粒度概念，且具备自动更新、自动扩充的能力。比如对于“刘德华”这一实例，AliCG 不仅包含“香港歌手”、“演员”等传统概念，还具有“华语歌坛不老男歌手”、“娱乐圈绝世好男人”等细粒度标签。

如图所示，AliCG 分为四个级别的层次结构：Level1 层由表示这些实例所属的领域概念组成；Level2 层由实例类型或子类的概念组成；Level3 层由基础概念组成，这些概念是实例的细粒度概念化；Instance 层包括实体和非实体短语等所有实例。

构建算法

3.1 细粒度概念获取

这一模块的目的是从包含噪声的海量开放语料中提取常见的细粒度概念，然后获取候选概念和实例，并通过概率推理和概念匹配将候选概念和实例与相应的概念联系起来。我们定义了一组精准的模板来从高置信度的匹配查询中利用 Bootstrapping 方法提取概念短语。例如，“十大XXX”是一种可用于提取种子概念的模式。基于这种模式，我们可以抽取出“十大手机游戏”等概念。

3.2 长尾概念挖掘

这一模块的目的是通过短语挖掘和自训练从有带噪的搜索日志中提取长尾概念。我们首先基于短语挖掘算法，并利用外部领域知识图谱中的术语进行长尾的概念挖掘。具体来说，我们首先过滤停止词，然后使用现成的短语挖掘工具 AutoPhrase 在无监督的情况下对语料库进行短语挖掘。我们同时采用了一种基于自训练的序列标注算法，用于长尾概念的挖掘，进一步提取一些分散的概念。

3.3 自动概念更新

这一模块的目的是随时间变化更新概念信息。我们首先将部分概念与预定义的同义词词典对齐。然后，我们通过通过每天的用户搜索实例热度计算置信度得分，并根据用户的点击行为来估计概念置信度分布。最后，我们将两个不同粒度的置信度得分联合构建实例-概念分类如下图所示。关于构建方法的细节可以参阅我们的论文原文。