会员服务 ·

CIKM21 | 异质图神经网络下在搜索广告关键词推荐中的应用

2021 年 12 月 23 日 图与推荐

丨目录：

- 摘要

- 背景

- 问题定义

- 方法

- 在离线实验

- 结语

- 相关文献

▐ 摘要

近年来，在线广告在消费者侧的大量工作受到了广泛关注，对广告平台来说，广告主营销优化工作在广告系统中也扮演着非常重要的角色。对于搜索广告，关键词推荐（Keyword Recommendation）就是其中一个面向广告主的核心推荐服务。本篇文章主要介绍阿里妈妈客户增长团队在直通车关键词推荐任务上遇到的挑战与解法——基于异质图学习的关键词召回模型 HetMatch。该项工作论文发表在 CIKM 2021 ，欢迎交流讨论。

论文下载： https://arxiv.org/abs/2111.00926

▐ 背景

搜索广告是在线广告的主要模式之一，广告主通过对关键词竞价来获得所需的广告曝光和流量。在直通车，数百万广告主每天会手动添加上千万的关键词，这体现了广告商的强大的营销意愿。然而，相比如此强烈的意愿，很多广告主由于缺乏专业知识来选择合适的关键字而难以获得期待的投放效果。以往的研究表明，许多广告主倾向于对少数热门关键词竞价，这使得一些没有竞价优势的广告主更难获得展现。这类问题同样发生在直通车，其中只有不到10%的自选关键字可以在第二天获得曝光。为了提高广告主的营销效率，现在许多搜索广告平台会向广告主提供不同基于关键字推荐的营销工具，如关键词建议工具，关键词智能采买工具等。

和其他推荐类任务一样，关键词推荐任务可以采用召回到排序的级联结构。召回阶段负责对给定广告检索千级别的关键词；排序阶段则是对召回结果基于预估效果（如点击、成交等）进行排序。在本项工作中，我们旨在优化关键词召回问题，它作为整个推荐链路的前哨，对后续的推词质量起着决定性的作用。已有的关键词召回或检索工作主要包含基于文本匹配、协同过滤和主题聚类的方法。但这些方法存在如下问题：1）这些方法忽略了在广告和关键词背后丰富的异质行为关系；2）它们忽视了对新广告的冷启动问题。

为了解决推荐中的召回问题，学界和工业界多年来已经探索了不同类型的方法。近来，在推荐方案中已经广泛研究了基于表示学习的方法，在召回任务上取得了不错的表现。这些方法旨在将异构信息网络中具有不同类型特征的每个节点表示为低维表示向量，期望相似的源节点和目标节点具有相似的表示向量。其中，基于图神经网络（GNN）的方法受益于其融合来自网络中不同距离的邻居的相关信息的强大能力，从而在召回任务中实现了先进的效果表现[1]。但是，在现有推荐方案中，常用的基于 metapath 的 GNN 召回方法由于双塔两侧不一致的 metapath、网络结构和特征类型，导致异质节点之间的向量匹配相比于同质节点多的向量匹配更具难度。另一方面，现有在 GNN 上的一系列工作表明网络中的噪声信息会降低 GNN 模型的效果表现，而在超大规模的异质信息网络中这样的噪声信息更是随处可见，如何有效地去除这些噪声信息的影响也十分重要[2]。最后，“冷启动”能力是衡量推荐系统效果的重要维度，而广告主侧的冷启动关键词推荐相比于用户侧的推荐拥有自身的场景特点。例如，广告主建立一个新的 ad 时，ad 对应的商品往往有前置行为数据（如点击），且广告主在建立 ad 时也会根据以往营销经验为该 ad 选择合适的关键词，有效利用这些前置信息能提高 ad 的冷启动能力。

为了应对这些挑战，我们提出了 HetMatch，一种基于异质图神经网络（HGNN）的关键词推荐模型。通过引入多层次的 GNN 结构，HetMatch 能在微观和宏观层面融合和增强不同类型的辅助关系信息，以更全面和鲁棒地对广告和词进行表征。此外针对冷启动问题，我们采用了多视图框架，使模型能通过多视图任务引入额外的新广告样本。我们通过直通车的工业数据集离线验证了 HetMatch 的有效性，并在直通车多个关键词推荐工具上进行了 AB 实验，多个业务指标（如消耗与采纳率）相比于基准算法都有显著提升。目前该模型已在直通车全量部署，服务于多个关键词推荐工具。

▐ 问题定义

异质信息网络（HIN）：我们基于直通车的 ad、item 和 query 可以构建异质信息网络，包含一个节点集合和关系集合，以及它们对应的节点类型映射函数和关系类型映射函数来关联到各自对应的类型。此外，不同类型的节点会有各自的 id 和属性特征，我们使用表示节点 v 的特征向量。

更具体来说，在关键词推荐这一任务中，我们考虑 ad，item 和 query 三种节点，整个节点集合可以被表示为。这三种节点之间也存在复杂的关系类型，例如 query 和 ad、item 的点击关系，以及 item 和 item、ad 的 coclick 关系等。类似于 HAN，metapath2vec，我们基于不同 metapath (由首尾相接的关系类型序列)来建模不同关系下的高阶邻居特征。

基于异质信息网络的ad-keyword召回问题： 圈定广告集合，我们的任务目标是最大化整体的topK召回率：。其中，表示广告召回的topK个关键词的集合，表示目标有效果的关键词集合。另外，我们会把的召回集合限定在一定的候选集合内，保证召回的关键词具有和广告相同的（预测）类目。

▐ 方法

在这一部分中，我们将介绍用于关键词召回任务的 HetMatch 模型。我们的模型遵循层次化的信息融合关系：节点级别特征融合→子图级别的特征融合→基于孪生匹配的信息融合→基于 multi-view 的特征映射。

节点级别的特征融合

首先我们将每个节点的特征编码成一个固定维数的向量。这些特征包括离散型特征和连续型特征。对于连续性特征，我们取其特征分布的 N 分位数转换其为离散特征。在转换完成后我们使用和节点类型相关的神经网络获得节点级别的表示向量。

子图级别的特征融合

Metapath: 我们定义了两组 metapath 来捕捉不同类型的语义关系，一组是基于采买关系，另一组是基于 item 桥接关系。

（1）采买关系： 基于采买关系的子图包含广告主采买的ad和 keyword 关系，这类 metapath 可以直接刻画围绕词和广告的竞争环境，即不同ad如何对同一个 keyword 感兴趣以及不同 keyword 如何被相似 ad 竞价，我们用以下四种基于用户点击和广告主采买的 metapath 来进行这类环境的刻画：

其中用户点击关系可以反映能给广告主直接带来点击收益的采买；而一般的采买关系主要用来对冷启动ad进行邻居关系的补充。

（2）基于item桥接的关系： 有时用户会在同一 pv 中点击 ad 和 item。这类行为可以在 ad 和 item 之间建立桥梁，有助于捕获更丰富的上下文信息。此外，这些 co-click 的 item 还能提供与 ad 和 query 相似的文本内容和用户行为模式，作为邻居引入可以丰富中心节点的表征。

降噪图卷积: GNN 的核心在于通过迭代地聚合邻居的信息，来捕获高阶的特征表示。然而，在通过 GNN 引入高阶邻居信息的同时，训练不充分的节点表征、用户的随机点击行为也带来了噪声信号，影响模型表现。为了减少噪声信号对训练结果的影响，我们设计了一种带有 autoencoder 的图卷积网络。在原有 GraphSage 的基础上，它将其聚合函数实例化为一个 autoencoder，将原有邻居信息通过编码器降维压缩减少噪声信息的影响，并通过解码器恢复到原来的维度，滤除噪声信号。具体的卷积方式如下：

其中表示中心节点的投影函数，g 表示降噪网络，分别为参数矩阵，为了进行信息压缩，我们令。此外，为了避免随机采样引入过多随机采买行为，我们根据实际点击行为进行 topK 采样。

语义融合层： 最后我们将不同 metapath 融合得到的 embedding 通过语义融合层进行融合。我们将语义融合层实例化为了 HAN 中使用的 self-attention 层。

孪生匹配

通常在获得语义表征层后，模型会直接计算点积分数并计算 loss 进行优化。在该步骤之前，我们将引入一种孪生匹配网络，来缓解异构图匹配问题中由于不同类型节点的模型参数和 metapath 定义不同，导致 ad 和 keyword 的表征难以分布在同一空间的问题。为了解决这一问题，我们将 ad 和 keyword 的匹配问题改为同构超节点(meta node)的匹配问题，即两组 ad-keyword pair 之间的匹配，保证匹配左右两端结构的同质性。对于 ad 侧，我们通过计算得到 ad 侧的 embedding，以及和 ad 最为相关的 topK 个 keyword 的 embedding 的均值，求和后通过线性变换得到最终的 embedding；keyword 侧的作法也类似。更通俗地说，我们将 ad 及其关联最紧密的 keyword 邻居与 keyword 及其关联最紧密的 ad 邻居进行匹配。

multi-view 学习和view转换

为了提高冷启动 ad 的效果，相比于以前只基于点击关系建立学习目标，我们引入了多种类型的 ad-keyword 的关系作为我们的优化目标。具体来说，我们选取 ad-keyword 点击关系，采买关系和 ad 背后的商品（item）和 keyword 的点击关系进行建模。考虑到不同 view 下标签分布存在较大的差异，不适合混合不同的标签进行学习，我们设计了一种高效的 multi-view 结构。即在利用 GNN 获得共享表征的基础上，针对 ad 侧不同的视图任务使用不同的神经网络进行分布调整，而 keyword 侧只学习一份 embedding。我们使用 sampled softmax loss 进行任务优化，其基本思想为最大化正样本点积的同时最小化不相关的 ad-keyword 对。

▐ 在离线实验

我们在搜索广告生产数据集上进行了离线实验，对比的方法包括 term-match，DSSM，HAN 和 IntentGC。实验结果显示，HetMatch 可以一致地提升不同召回词数下的表现，以及冷启动场景下的表现。此外，我们也进行了 Ablation Study 分析每个模块的效果。

在此基础上，我们也进一步将我们的模型部署到直通车关键词产品的推词流程中。通过在关键词建议工具的推词流程引入 HetMatch 召回通道，工具采纳率提升了4.19%，此外，采纳关键词的点击数也提升了5.35%。对于智能买词工具，相比于线上部署的 graphsage 召回模型，HetMatch 在每日加词任务中能提升10.89%的消耗。

▐ 结语

本项工作中，我们基于围绕关键词和商品的超大规模异质网络进行了关键词召回任务的探索。在未来工作中，我们将探索迈向更大的图网络，通过考虑更丰富的节点类型和属性信息来更好地对广告与关键词进行建模。此外，HetMatch 仍然主要依赖于较简单的分词 id 特征进行文本建模，考虑到基于 transformer 的语言模型在不同文本任务上的出色表现，结合 GNN 和 transformer 来进一步提升关键词推荐质量也是我们未来的工作方向。

相关文献

[1] Wu, Shiwen, Fei Sun, Wentao Zhang, and Bin Cui. "Graph neural networks in recommender systems: a survey." arXiv preprint arXiv:2011.02260 (2020).

[2] Xu, Jiarong, Yang Yang, Chunping Wang, Zongtao Liu, Jing Zhang, Lei Chen, and Jiangang Lu. "Robust Network Enhancement from Flawed Networks." IEEE Transactions on Knowledge and Data Engineering (2020).

登录查看更多