万物皆可Graph | 当信息检索遇上图神经网络

2022 年 2 月 17 日 图与推荐

作者 | 上杉翔二         

悠闲会 · 信息检索  

整理 | NewBeeNLP

这次更新最近SIGIR2021,博主自己刷过觉得还不错的几篇文章,分搜索和推荐两篇博文整理吧,这篇是关于检索的三篇文章。

GraphCM

  • A Graph-Enhanced Click Model for Web Search
  • https://dl.acm.org/doi/10.1145/3404835.3462895

图方法结合点击模型,不做过多科普。作者认为现有的点击模型无法应对

  1. 稀疏性。现有的模型通常会出现数据稀疏性问题,即对查询文档对缺乏有用的用户交互反馈。
  2. 冷启动。现有的模型在冷启动环境中易受到攻击。

因此从不同用户发布的不同会话(即会话间信息)的查询或文档或会话之间的交互中提取用户的行为模式具有丰富的潜力,可以同时解决以上问题。因此提出图增强点击模型(GraphCM),模型图如下:博主个人觉得具体的做法比较完善,GraphCM由attractiveness estimator和examination predictor组成。attractiveness estimator涉及到三个模块,query encoder, document encoder, 和neighbor interaction,即左边的三个小虚线框框。

  • query encoder。编码查询上下文,将每个查询视为一个顶点构图,利用Query  Homogeneous  GAT学习表示,然后GRU建模序列得到表示。
  • document encoder。编码文档上下文,document构图同query类似,用GAT学习完毕之后,还会拼接一些,文档ID d、垂直类型v、先前点击c,排序位置p,一起生成文档上下文表示。
  • neighbor interaction。进一步考虑查询和文档之间的交互,提出了一种显式合并文档高阶邻居信息的邻居交互方法,即采样同域内的节点,进一步丰富局部图的结构信息,可以缓解数据的稀疏性问题。

attractiveness estimator测量的是每个文档对用户的吸引力分数,而examination predictor旨在预测用户是否会根据她的会话上下文继续点击概率。即上图右侧的两个任务小框。最后可以看到模型通过一个组合层,结合吸引力分数和概率来进行用户点击预测。

FNPS

  • Group based Personalized Search by Integrating Search Behaviour and Friend Network
  • https://dl.acm.org/doi/abs/10.1145/3404835.3462918

这一篇的任务是个性化搜索。一般常见的个性化搜索在数据少时会合并一些相似用户,即有相似的搜索词。但当行为少时,这种相似用户的行为不一定可靠,因此引入朋友网络来共同建模,即相似的信息需求+多样的朋友关系。

作者提出模型FNPS的架构如上图,比较直观

  • 首先,利用朋友网络和用户的历史搜索行为,从两个角度形成朋友圈。即图中的relation-based circles(友谊伴随这共享的经验,因此拿到朋友关系来分组)和behavior-based circles(历史搜索行为可以在一定程度上反映用户的兴趣,所以利用行为来分组)。
  • 其次,利用图注意网络GAT对不同权重的朋友信息进行聚合。
  • 第三,将两种朋友圈的表征输入交叉注意层Cross-Attention,相互增强。
  • 最后,为了响应当前的查询意图,使用查询感知的注意力来突出相关的朋友圈。其中长短期Transformer建模历史记录得到动态的个人profile信息。

GRAPH4DIV

  • Modeling Intent Graph for Search Result Diversification
  • https://dl.acm.org/doi/10.1145/3404835.3462872

这一篇研究搜索多样性问题。搜索结果多样化旨在提供包含尽可能多意图的不同文档。一些常见的多样性检索方法博主在过往文章有过整理了,传送门:多样性检索[5]

一般都是使用逐个选最多样的某个item,但作者认为现有多样化的方法仍然存在的问题有:

  1. 多样性排序loss是唯一的。因此就不知道排错的结果是因为特征的组合问题导致,还是多样性的特征不够。同时只用初始化特征来计算新颖性也是不准确的,文档的内容是推导文档多样性信息的重要来源,应该被重点关注。
  2. 候选文档的多样性是通过其与所选文档的不同性来衡量的,而忽略了所选文档对查询的意图覆盖范围和候选文档之间的 相似性

总体来说作者认为文档的内容和查询的意图是重要的两个衡量点。但会各自遇到两大困难:

  • 如何同时考虑内容和意图覆盖来计算文档相似度。文档的意图很重要,相似的内容一定也共享很多的意图。同时对于结果来说,返回文档中的意图越多则多样性越好,但用户意图通常隐藏在文档内容中。
  • 如何在文档选择过程中考虑查询和文档的复杂和动态关系。这里的动态博主个人理解是在一个一个挑选过程中,选择队列中对意图多样性的需求是不断变动的,因此候选文件的多样性不是独立的。

因此作者提出可以直接通过文档意图覆盖范围的相似性,而不是仅仅文档表示特征的相似性来建模,同时讨论复杂的意图关系。最终提出的方案GRAPH4DIV如下图所示:首先看一下ranking分数 的计算,如上图的右上角的地方:

其中当前查询 、文档集 和候选文档 分别是相关性和多样性分数。然后这俩的计算分别为:
相关性分数比较好计算,而多样性分数由于选择文档的动态性,因此计算会复杂一些为:


如图的其他部分都是在获得这里的多样性特征

具体的做法分为以下几步。

  • 文档关系图。为了充分利用文档内容的丰富信息,作者设计了一个文档关系分类器,其根据文档内容的内容来判断两个文档是否包含相同的意图。然后构建意图图,其中如果两个文档共享相同的意图,则它们是连接的。
  • 图卷积层。用GCN适应这个动态意图图来学习意图感知文档表示和上下文感知查询表示。动态的意思是当选择完分数最高的文档后,图的结果将会变化即Adjusted Graph,然后在用GCN学习表示。
  • 多样性特征。由query表示 ,文档表示 ,度表示 和全局图表示 组成。


本文参考资料

[1]

图神经网络用于推荐系统问题(PinSage,EGES,SR-GNN): https://nakaizura.blog.csdn.net/article/details/106413118

[2]

图神经网络用于推荐系统问题(NGCF,LightGCN): https://nakaizura.blog.csdn.net/article/details/106970194

[3]

图神经网络用于推荐系统问题(IMP-GCN,LR-GCN): https://nakaizura.blog.csdn.net/article/details/114320157

[4]

图神经网络用于推荐系统问题(SURGE,GMCF,TASRec): https://nakaizura.blog.csdn.net/article/details/121549056

[5]

多样性检索: https://blog.csdn.net/qq_39388410/article/details/109706683


登录查看更多
1

相关内容

信息检索( Information Retrieval )指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。信息检索的目标:准确、及时、全面的获取所需信息。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
WSDM'22「京东」个性化会话推荐:异构全局图神经网络
专知会员服务
22+阅读 · 2022年1月7日
【WSDM2021】多交互注意力网络细粒度特征学习的CTR预测
专知会员服务
24+阅读 · 2020年12月27日
专知会员服务
37+阅读 · 2020年11月24日
个性化推荐系统技术进展
专知会员服务
65+阅读 · 2020年8月15日
最新《图神经网络知识图谱补全》综述论文
专知会员服务
155+阅读 · 2020年7月29日
【AAAI2020知识图谱论文概述】Knowledge Graphs @ AAAI 2020
专知会员服务
133+阅读 · 2020年2月13日
当推荐系统遇上多模态Embedding
机器学习与推荐算法
2+阅读 · 2022年4月14日
个性化商品搜索相关研究梳理
机器学习与推荐算法
0+阅读 · 2022年2月17日
推荐系统+图神经网络,预训练技术研究进展
图与推荐
3+阅读 · 2022年1月5日
CIKM'21 多关系图神经网络的社区问答
图与推荐
3+阅读 · 2021年10月11日
SIGIR'21 | 推荐系统中的多关系图神经网络
图与推荐
3+阅读 · 2021年10月10日
论文浅尝 | GraphIE:基于图的信息抽取框架
开放知识图谱
17+阅读 · 2019年6月2日
【知识图谱】基于知识图谱的用户画像技术
产业智能官
102+阅读 · 2019年1月9日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2022年4月14日
Knowledge Embedding Based Graph Convolutional Network
Arxiv
24+阅读 · 2021年4月23日
Identity-aware Graph Neural Networks
Arxiv
14+阅读 · 2021年1月25日
Arxiv
27+阅读 · 2020年6月19日
Arxiv
102+阅读 · 2020年3月4日
Heterogeneous Graph Transformer
Arxiv
27+阅读 · 2020年3月3日
Domain Representation for Knowledge Graph Embedding
Arxiv
14+阅读 · 2019年9月11日
Arxiv
29+阅读 · 2018年4月6日
VIP会员
相关资讯
当推荐系统遇上多模态Embedding
机器学习与推荐算法
2+阅读 · 2022年4月14日
个性化商品搜索相关研究梳理
机器学习与推荐算法
0+阅读 · 2022年2月17日
推荐系统+图神经网络,预训练技术研究进展
图与推荐
3+阅读 · 2022年1月5日
CIKM'21 多关系图神经网络的社区问答
图与推荐
3+阅读 · 2021年10月11日
SIGIR'21 | 推荐系统中的多关系图神经网络
图与推荐
3+阅读 · 2021年10月10日
论文浅尝 | GraphIE:基于图的信息抽取框架
开放知识图谱
17+阅读 · 2019年6月2日
【知识图谱】基于知识图谱的用户画像技术
产业智能官
102+阅读 · 2019年1月9日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
相关论文
Arxiv
0+阅读 · 2022年4月14日
Knowledge Embedding Based Graph Convolutional Network
Arxiv
24+阅读 · 2021年4月23日
Identity-aware Graph Neural Networks
Arxiv
14+阅读 · 2021年1月25日
Arxiv
27+阅读 · 2020年6月19日
Arxiv
102+阅读 · 2020年3月4日
Heterogeneous Graph Transformer
Arxiv
27+阅读 · 2020年3月3日
Domain Representation for Knowledge Graph Embedding
Arxiv
14+阅读 · 2019年9月11日
Arxiv
29+阅读 · 2018年4月6日
Top
微信扫码咨询专知VIP会员