图谱实战 | 面向C端场景的概念图谱构成、建设与应用索引

会员服务 ·

图谱实战 | 面向C端场景的概念图谱构成、建设与应用索引

2022 年 2 月 20 日 开放知识图谱

转载公众号 | 老刘说NLP

C端是知识图谱应用的一个重要领域，这个领域有大量的用户行为数据，存在着包括搜索、推荐、广告投放等业务。

当前，主流的互联网公司，如美团、阿里、腾讯都在尝试相关落地，在此当中，概念图谱的建设和应用受到关注。

概念图谱可以用于特征的补充，实体的召回等数据增强等实际工作当中。

本文主要从工业界的角度，对已有开放的大厂工作进行汇总、介绍，并对C端场景的概念图谱构成、构建与应用进行总结。

最近也在做这个方面的工作，写出来，与大家一起思考，对于进一步的扩展阅读，大家可以从延伸阅读的链接中查询。

一、美团常识性概念图谱

《常识性概念图谱建设以及在美团场景中的应用》 一文中提出了常识性概念图谱，常识性概念图谱就是建立概念与概念之间的关系，帮助自然语言文本的理解。特别的，常识性概念图谱侧重美团场景，帮助提升美团场景中的搜索、推荐、Feeds流等的效果。

1、图谱构成

常识性概念图谱涵盖“是什么”的概念Taxonomy体系结构，“什么样”的概念属性关系，“给什么”的概念承接关系。

同时POI（Point of Interesting）、SPU（Standard Product Unit）、团单作为美团场景中的实例，需要和图谱中的概念建立连接。

从构成上看，该图谱包括Taxonomy节点、原子概念节点、复合概念节点、同义/上下位关系、概念属性关系、概念承接关系、POI/SPU-概念关系等信息。

2、图谱构建

如下图所示，在构建流程上，该图谱包括基础数据抽取，从UGC，用户搜索日志中展开，并进行概念挖掘，包括原子概念、复合概念，随后进行上下文，同义关系抽取等一系列流程。

3、图谱应用

基于美团的业务，常识性概念图谱可以支持以下场景。

1、到综品类词图谱建设。 借助常识性图谱，补充欠缺的品类词数据，构建合理的品类词图谱，帮助通过搜索改写，POI打标等方式提升搜索召回。目前在教育领域，图谱规模从起初的1000+节点扩展到2000+，同时同义词从千级别扩展到2万+，取得了不错的效果。

2、点评搜索引导。 点评搜索SUG推荐，在引导用户认知的同时帮助减少用户完成搜索的时间，提升搜索效率。所以在SUG推荐上需要聚焦两个方面的目标：帮助丰富用户的认知，从对点评的POI、类目搜索增加自然文本搜索的认知；精细化用户搜索需求，当用户在搜索一些比较泛的品类词时，帮助细化用户的搜索需求。

在常识性概念图谱中，建立了很丰富的概念以及对应属性及其属性值的关系，通过一个相对比较泛的Query，可以生成对应细化的Query。例如蛋糕，可以通过口味这个属性，产出草莓蛋糕、芝士蛋糕，通过规格这个属性，产出6寸蛋糕、袖珍蛋糕等等。

3、到综医美内容打标。 在医美内容展示上，用户通常会对某一特定的医美服务内容感兴趣，所以在产品形态上会提供一些不同的服务标签，帮助用户筛选精确的医美内容，精准触达用户需求。但是在标签和医美内容进行关联时，关联错误较多，用户筛选后经常看到不符合自己需求的内容。提升打标的准确率能够帮助用户更聚焦自己的需求。借助图谱的概念-POI打标能力和概念-UGC的打标关系，提升标签-内容的准确率。通过图谱能力打标，在准确率和召回率上均有明显提升。

延伸阅读:

https://zhuanlan.zhihu.com/p/384740848

二、阿里巴巴概念图谱AliCG

《机器知道哪吒是部电影吗？解读阿里巴巴概念图谱AliCG》 一文中介绍了阿里巴巴的概念图谱 AliCG。

该图谱由海量的概念核心实例、数万的细粒度概念和概念-实例三元组组成，这些数据包括了常见的人物、地点等通用实例。相较于传统的知识图谱，AliCG 包含大量中文细粒度概念，且具备自动更新、自动扩充的能力。

比如对于“刘德华”这一实例，AliCG 不仅包含“香港歌手”、“演员”等传统概念，还具有“华语歌坛不老男歌手”、“娱乐圈绝世好男人”等细粒度标签。

1、图谱构成

AliCG 分为四个级别的层次结构，其中，

Level1 层由表示这些实例所属的领域概念组成；

Level2 层由实例类型或子类的概念组成；

Level3 层由基础概念组成，这些概念是实例的细粒度概念化；

Instance 层包括实体和非实体短语等所有实例。

2、图谱构建

该工作主要聚焦于细粒度概念挖掘、长尾概念挖掘以及自动概念更新三个部分，如下图所示。

其中，

细粒度概念获取。不同于粗粒度概念，细粒度的概念有助于提升搜索的召回率。

在实现上，定义了一组精准的模板来从高置信度的匹配查询中利用 Bootstrapping 方法提取概念短语。例如，“十大XXX”是一种可用于提取种子概念的模式。基于这种模式，可以抽取出“十大手机游戏”等概念。

长尾概念挖掘。传统的概念抽取方法通常是基于 Hearst 模板提取概念。该系统首先基于短语挖掘算法，并利用外部领域知识图谱中的术语进行长尾的概念挖掘。

具体来说，首先过滤停用词，然后使用现成的短语挖掘工具 AutoPhrase 在无监督的情况下对语料库进行短语挖掘。同时采用了一种基于自训练的序列标注算法，用于长尾概念的挖掘，进一步提取一些分散的概念。

自动概念更新。传统的方法无法随着时间的推移更新概念的信息。例如，“哪吒”在不同的时期有着不同的含义，可以指神话作品人物或者上映影片。因此，必须将时间演化纳入概念分类体系构建中。

在实现上，首先将部分概念与预定义的同义词词典对齐。然后，通过通过每天的用户搜索实例热度计算置信度得分，并根据用户的点击行为来估计概念置信度分布。最后，将两个不同粒度的置信度得分联合构建实例-概念分类。

3、图谱应用

AliCG 在四种不同场景下的潜在应用案例：

（1）交互式搜索系统。 例如，“哪吒”链接到概念层 level3 的浅层概念，可引导用户依据列出的概念进行实时交互，实现实体消歧，精准定位搜索内容，最终索引到“哪吒之魔童降世”内容，高层级的概念有助于帮助定位目的实例；

（2）开放式对话系统。 可根据用户给定的实例联系概念知识图谱，实例-概念、概念-概念之间的链接通路使对话更有信息量，提高交互能力；

（3）阅读理解系统。 可根据文本内容对链接到“李白”这一实例的概念进行置信度排序，向用户展示最有可能的理解输出，在这里系统根据上下文可以准确判断“李白”并不是指代高频概念“盛唐时期的诗人”，这说明了细粒度的概念知识图谱对于识别精度有很大帮助；

（4）广告推荐系统。 根据用户历史购物信息，向中文概念图谱中索引高层次概念实例，多个概念之间进行组合推断，识别到“运动装备”、“工业产品”、“用具”，可以有效向用户推送户外相关产品，并给出推荐理由。

延伸阅读：https://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw%3D%3D&idx=1&mid=2247530031&scene=21&sn=8628218cbf4386a2ff667305d3d8d3cd#wechat_redirect

三、腾讯兴趣点概念图谱

《腾讯信息流内容理解技术实践》一文介绍了兴趣图谱的概念。

其应用场景在于推荐系统需要积累用户模型，因此需要保留完整的上下文，语义粒度要完整；不同的人消费同一篇文章背后原因可能不同，因此需要有一定的推理能力。因此，推出了兴趣点图谱。

1、图谱构成

如上图所示，兴趣点图谱由四层组成：分别为分类层、概念层、实体词和事件层。

其中，分类层一般是由 PM 建设，是一个严格树状的结构，一般在1000左右个节点，主要解决人工运营的需求；

概念层指的是有相同属性的一类实体称之为概念，例如老年人专用手机、省油耐用车等，用于推理用户消费的真实意图，负责一般兴趣点的召回；

实体层指的是知识图谱中的实体，如：刘德华，华为 P10 等；

事件层：用来刻画某一个事件，例如：王宝强离婚、三星手机爆炸等。

在关系刻画上，兴趣点图包括三种关系：

上下位关系，例如“红米note2”的上位词是“性价比高的智能手机”；

关联关系；

参与关系，比如在“凯美瑞召回”事件中，“凯美瑞”是“凯美瑞召回”的一个参与实体。

2、图谱构建

图谱构建包括概念挖掘、热门事件挖掘、关联关系挖掘等步骤。

其中，例挖掘概念使用的是搜索数据，每一个概念都有多个点击的网页，对网页进行实体抽取，然后统计实体和概念的共现频次就可以获得较为准确的上下位关系。进一步的，文章《腾讯提出概念挖掘系统ConcepT》一文中对该部分的实现做了更为细致的分析。

事件指的是热门事件。如果一个事件比较热门，网友就会有了解需求，会通过搜索引擎来查询事件，因此使用 query 作为热门事件挖掘的来源。

在关联关系的挖掘上，利用实体之间的共现数据进行训练，可以作为正例，负样本采用同类实体随机负采样，通过 pair wise 的 loss 进行训练，得到每个实体的 embedding，然后计算任意两个实体的关联度。

3、图谱应用

作为拥有微信等强流量的腾讯，主要应用于信息流等内容理解场景。例如，下面介绍了对于每一篇文章，希望能预测出适合描述该文章的兴趣点的需求，兴趣图谱主要用于召回。

在整个兴趣点的理解上，可以拆解成两步，第一步是召回，第二步是匹配。召回又可以分为基于关系的召回和基于语义的召回。基于关系的召回主要是利用图谱中的上下位关系。例如一篇文章中出现了“雷凌”这个实体，它的上位概念是“省油家用车”，就可以把“省油家用车”作为候选的兴趣点召回。

延伸阅读：https://zhuanlan.zhihu.com/p/94706925?from_voters_page=true

总结

C端是知识图谱应用的一个重要领域，这个领域有大量的用户行为数据，存在着包括搜索、推荐、广告投放等业务。

建立概念图谱，百科图谱，甚至是事件图谱、事理图谱作为基础底库，对于特征扩充，召回扩展有重要意义。

当然，我们很明显的能够看到，这些工作很费人力，很脏，是一个基础设施建设的范畴，也必须去做。

概念图谱的工作之前也有做过，深有体会，大家可以一起加入进来去建设。

关于老刘

老刘，刘焕勇，NLP开源爱好者与践行者，主页：https://liuhuanyong.github.io。

就职于360人工智能研究院、曾就职于中国科学院软件研究所。

老刘说NLP，将定期发布语言资源、工程实践、技术总结等内容，欢迎关注。

OpenKG

OpenKG（中文开放知识图谱）旨在推动以中文为核心的知识图谱数据的开放、互联及众包，并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文，进入 OpenKG 网站。

登录查看更多

相关内容

搜索

关注 14

互联网

《基于文本数据的金融风险防控知识图谱构建技术框架指南》国家标准意见稿

专知会员服务

79+阅读 · 2022年2月21日

事件图谱的构建、推理与应用

专知会员服务

128+阅读 · 2021年6月12日

百度知识图谱技术及应用

专知会员服务

193+阅读 · 2021年3月22日

面向知识图谱的信息抽取

专知会员服务

202+阅读 · 2020年10月14日

【SIGMOD2020-腾讯】Web规模本体可扩展构建

专知会员服务

32+阅读 · 2020年4月12日

图谱实战 | 李翔：美团到店综合知识图谱的构建与应用

开放知识图谱

4+阅读 · 2022年4月1日

图谱实战 | 安全领域知识图谱建设与典型应用场景总结

开放知识图谱

5+阅读 · 2022年2月11日

图谱实战 | 京东商品图谱构建与实体对齐

开放知识图谱

0+阅读 · 2022年1月4日

领域应用 | 常识性概念图谱建设以及在美团场景中的应用

开放知识图谱

3+阅读 · 2021年7月9日

关系图谱在贝壳的构建和应用

DataFunTalk

29+阅读 · 2020年3月4日

面向大规模动态异构网络的支持多用户并发任务的物联网应用构建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

汉语全文词义标注关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

构建面向Web的、以实体为中心的知识库的关键技术研究

国家自然科学基金

7+阅读 · 2012年12月31日

文本语言表达到概念关系的映射方法研究与资源建设

国家自然科学基金

1+阅读 · 2012年12月31日

面向网页检索应用的汉语语义概念图表示方法研究

国家自然科学基金

0+阅读 · 2008年12月31日

The signature and cusp geometry of hyperbolic knots

Arxiv

0+阅读 · 2022年4月19日

Enhancing CTR Prediction with Context-Aware Feature Representation Learning

Arxiv

0+阅读 · 2022年4月19日

An Efficient Algorithm for the Proximity Connected Two Center Problem

Arxiv

0+阅读 · 2022年4月19日

Combining Spectral and Self-Supervised Features for Low Resource Speech Recognition and Translation

Arxiv

0+阅读 · 2022年4月18日

Contrastive learning of global and local features for medical image segmentation with limited annotations

Arxiv

19+阅读 · 2020年6月18日

VIP会员