【知识图谱】基于知识图谱的用户画像技术

2019 年 1 月 9 日 产业智能官

随着互联网上用户访问数量的迅速增长，用户创建和访问的信息数量呈指数级递增，因此，众多互联网企业一方面希望能在用户使用产品的过程中，利用多维度多渠道的用户行为数据采集方式记录用户尽可能多的数据；另一方面，针对如此规模的用户大数据，企业也很难对用户的数据进行准确的分析，从而导致无法有效的将最优的服务投放到最合适的用户人群手中。近年来兴起的用户画像技术正是为了解决这一难题而成为当前用户行为分析的热点技术。

1. 什么是用户画像

用户画像技术是基于用户数据对现实世界中用户的数学建模：一般来说，构建用户画像首先要有数据，要根据用户的社会属性、生活习惯和消费行为等数据，对用户数据的采集和积累是进行用户画像的基础；二是要有明确的业务应用场景，用户画像与业务应用密不可分，通常需要对符合业务需求的特定用户进行画像和分析；三是要有相关的用户建模算法，从已有的用户数据中挖掘深层次的、能触及用户需求的信息，将不同数据抽象出的一个标签化的用户模型。这里，用户画像技术的核心工作即是给用户打“标签”，而标签是通过对用户信息分析而来的高度精炼的特征标识，从而对用户进行基于标签的分类和抽取，如图 1所示

图1.用户画像示意图

用户画像技术的应用范围非常广泛，包括用于精准营销，通过分析潜在用户，针对特定用户群体进行广告投放，减少不必要的广告费用；或者通过分析用户数据的关联性，构建面向用户的个性化推荐系统，对服务或产品做到千人千面的定制化部署。

用户画像技术具有很高的理论研究与应用价值，许多研究者从不同角度、不同类型的数据中提出构建用户画像的方法。Kacem 等考虑用户一段时间的连续搜索词，对词频和词语的新鲜度进行时序建模，利用TFIDF 表示关键词向量，生成用户的具有时效性的画像。Zhao 等在基于传统矩阵分解的方法上进行改进，基于Google+ 的社交网络内容，构建用户行为兴趣矩阵，通过分解生成基于不同行为兴趣的用户向量，以此表示用户画像。Yin 等则考虑利用用户的轨迹信息进行建模，通过构建包含用户、家庭信息、地点信息、对应的主题，以及在不同地点的行为频率映射成分数，生成用户基于位置信息的五元组，作为用户画像表示。

然而，在目前阶段，用户画像的构建过程仍存在很大的问题，从用户数据采集，到数据处理，再到行为数据的提取建模，最终生成用户标签。这其中涉及到大量人工操作，同时人工的主观性会影响到用户画像的可观性与准确性。因此，我们提出了基于知识图谱的用户画像构建技术。

2.知识图谱构建技术

针对大数据条件下用户行为所产生的信息，我们以显性知识的有效结构化为目标，采用基于深度语义学习的实体识别、关系抽取，以及属性抽取技术实现对多源用户信息的抽取；采用基于跨模态共享子空间学习理论的知识融合技术，实现对跨模态跨领域用户的信息融合；采用基于深度神经语言模型的知识推理与实体扩展技术，实现对知识图谱的动态演化与更新。具体的技术路线如图 2 所示。

图2.知识图谱构建技术路线

本项目所采用的知识图谱构建技术主要包括：

● 面向多源信息的知识图谱实体与关系抽取技术。

● 面向多源信息的实体对齐与多尺度融合技术。

● 知识图谱关系扩展与推理技术。

● 时空多尺度场景下的知识图谱主题演化与更新技术。

3.基于知识图谱的用户画像技术

本项目利用系统采集到的大量真实用户数据，包括用户的手机APP 行为数据、浏览器搜索词数据、游戏直播等娱乐消费数据，首先对所有原始数据进行字段筛选，并进行初步预处理，获得直接反映用户行为的字段，比如APP 的描述与开发者所打标签、一段时间的游戏消费金额数据、用户的连续搜索行为数据。然后，基于用户的行为数据构建面向用户画像的知识图谱，再将生成知识图谱的所有语料，或来源于新闻报道，或论坛的问答，同时包含所有APP 的描述语料，利用深度语义模型表示成词向量表示。

针对企业的用户画像需求，首先可以对特定的需求信息进行解析，并进行语义泛化，得到与该需求信息的语义接近的TopN 词语表示。比如，对于“具有赌博倾向的用户”需求信息，我们可以泛化出“赌球”、 “赌马”、“赌场”等与相近的词语表示。然后，利用知识图谱提供的实体与实体之间的语义相似性和逻辑相关性，通过在词向量空间中计算相关词语之间的欧氏距离，对所有通过需求词泛化得到的词语表示，在知识图谱中寻找语义相近的实体，通过欧氏距离的表示可以得到词语与实体之间的相关性。得到语义有关的知识实体之后，同样利用向量的相似性计算得到相关实体与已知用户行为标签语义相近的标签表。依据相似值的大小，我们可以直观的了解与需求词语相关的用户行为标签，通过组合计算，便可以得到与标签对应用户的相关性的强弱，从而生成可以表示用户特性的用户行为标签关联组合，如图 3 所示。

图3.基于知识图谱的用户行为标签组合示例

本文比较系统地介绍了基于知识图谱的用户画像技术，通过上述介绍可以看出 :

① 目前用户画像技术仍然处于基于人工操作“打标签”状态，用户行为分析的扩展性不够；

② 知识图谱在用户画像技术上的应用还处于初期阶段，需要更好地开展理论和应用研究；

③ 面向海量用户行为数据的用户画像技术仍然需要更复杂和更成熟的算法研究来推动。此外，用户画像技术是多学科的结合，需要知识图谱、自然语言处理、机器学习和数据挖掘等方面的知识融合；有很多开放性问题需要学术界和产业界一起解决。我们有理由相信学术界在上述方面的突破将会极大地促进用户画像技术的发展。

工业互联网

产业智能官 AI-CPS

加入知识星球“产业智能研究院”：先进产业OT（工艺+自动化+机器人+新能源+精益）技术和新一代信息IT技术（云计算+大数据+物联网+区块链+人工智能）深度融合，在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的机器智能认知计算系统；实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。