你的「在看」有人看,清华研究者从微信「看一看」里发现了这些规律

2021 年 5 月 6 日 机器之心
选自arXiv
作者:Fanjin Zhang、Jie Tang等
机器之心编译
编辑:魔王

微信点「看一看」最活跃用户竟是爸妈辈,小年轻最「安静」…… 清华大学唐杰等人最近的一项研究透过微信「看一看」的数据分析了用户点击阅读文章和点「在看」的行为模式,并从人口统计情况、二元和三元关联、自我中心网络结构这些不同方面进行了分析。


该研究还提出了一个预测模型,预测准确率相比其他方法有所提升。目前,该论文已发表在《IEEE Transactions on Knowledge and Data Engineering》(TKDE) 期刊上。



  • 论文链接:https://arxiv.org/pdf/2103.02930.pdf

  • GitHub 链接:https://github.com/zfjsail/wechat-wow-analysis


微信文章的「在看」按钮,想必大家都不陌生。在发现页点开「看一看」,微信用户就能看到朋友点过「在看」的文章,也可以点击这些文章进行阅读,或者点个「在看」。


微信「看一看」页面示例。(「wow button」是「在看」按钮。)


那么,哪些因素会影响用户点击阅读这些文章和点「在看」的行为呢?


哪些因素影响了「看一看」用户的行为


该研究从三个层面进行了分析。


  • 从用户人口统计信息来看,不同性别和年龄段的用户「在看」和点击行为的变化很大,在考虑跨属性因素时,情况更加复杂;

  • 就二元关联来看,当其活跃朋友是结构洞和意见领袖时,用户的行为可能截然不同;

  • 而对于自我中心网络(Ego Network),「在看」和点击阅读文章的概率于用户活跃朋友构成的连通分支(connected component)数量强相关。


下面是具体分析结果。


用户人口统计信息



表 1、图 2 和图 3 给出了不同性别和年龄的用户在「看一看」中点「在看」和点击阅读文章的概率。从中,我们可以发现:


  • 男性的点击概率明显高于女性,女性点「在看」的概率略高于男性(参见表 1);

  • 20+ 和 30+ 的年轻人是线上社交圈的中流砥柱,但他们点「在看」和点击阅读文章的概率在所有年龄段中是最低的(参见图 2);

  • 当同时考虑性别和年龄属性时,情况又有所不同:不到 20 岁的人中,男性比女性更活跃;但超过 40 岁的人中女性点「在看」的比例更大,超过 60 岁的人中女性点击阅读文章的比例更大(参见图 3)。


二元和三元关联


为了方便起见,该研究在二元关联中仅考虑用户与一个活跃朋友的互动,在三元关联中仅考虑用户与两个活跃朋友的互动。研究者从人口统计属性与社会角色两个方面进行分析。


1. 二元关联与人口统计属性


下表 2 展示了用户性别和朋友性别对用户活跃率的影响。从中可以看到,就点击行为而言,当二人性别相同时,用户的点击概率更高;但对于「在看」行为而言,当朋友是女性时,用户点「在看」的概率更高。



从年龄来看,下图 4 展示了用户年龄与朋友年龄对用户「在看」行为概率的影响。从中我们可以发现,当用户比较年轻(< 40 岁)时,相比于同龄人,他们更易受年龄较大朋友的影响;年龄较大用户则更易受同龄朋友的影响。



2. 二元关联与社会角色


下表 4 展示了用户与朋友具备不同社会角色——意见领袖 (OL) 和普通人 (OU) 时,对用户活跃率的影响。从中可以发现,当活跃朋友并非意见领袖时,用户点「在看」和点击阅读文章的概率更高。



下表 5 展示了结构洞 (SH) 和普通人 (OU) 这两种社会角色对用户活跃率的影响。(「结构洞」指社会网络中的空隙,即社会网络中某个或某些个体和有些个体发生直接联系,但与其他个体不发生直接联系,即无直接关系或关系间断,从网络整体看好像网络结构中出现了洞穴。)


可以看出,当朋友是结构洞时,普通用户的活跃率更高。而对于本身是结构洞的用户,当朋友非结构洞时其点击概率更高,但差别并不显著。



3. 三元关联与人口统计属性


下图 5 展示了用户性别和朋友性别对用户活跃率的影响。可以看出,当两个朋友的性别与用户性别相同时,用户的活跃率最高。这显示出很强的同质偏好性(homophily)。



下图 6 展示了用户年龄与朋友年龄对用户活跃率的影响。从中我们可以发现,如果一个朋友与用户同龄另一个较小,则用户的活跃率高;年长用户更关注年轻用户。



自我中心网络属性


此外,研究者还探讨了用户活动与其自我中心网络属性的关联,发现用户的线上行为(点击阅读和「在看」)受朋友圈(自我中心网络中的朋友)影响很大。自我中心网络指用户的活跃朋友的诱导子图(induced subgraph)。


该研究从自我中心网络中的朋友数量、连通分支 (#CC) 数量、cleaned 自我中心网络(k 核子图)中的 #CC 这三个方面分析自我中心网络的属性。


下图 8 展示了活跃朋友数量增加对用户活跃率的影响。从图中可以看出,对于点击和「在看」行为而言,趋势完全不同。



通过这些分析,研究者得到以下发现:


  • 男性更喜欢点击阅读文章,女性更喜欢点「在看」,年轻人在「看一看」中的活跃度最低;

  • 在二元或三元关联方面,用户和其朋友之间存在有趣的「同质相吸」现象(如性别),但当不止一个活跃朋友时,属性多样性(如区域)与用户的活动呈正相关;

  • 根据自我中心网络拓扑结构,「在看」和点击行为的模式差异极大。例如,在活跃朋友数量固定的情况下,用户点「在看」的概率与活跃朋友构成的连通分支呈负相关,但点击行为却相反。当自我中心网络得到清理后,这一模式更加明显。


预测模型


既然发现了一些模式或规律,我们可以利用它们预测用户的线上行为吗?该研究创建了一个预测模型 DiffuseGNN。


模型架构。


如上图所示,DiffuseGNN 模型包含五步:预处理自我中心网络、输入层、特征平滑层、层级图表示学习和输出层。


该模型的核心组件和基础 idea 如下所示:


  1. 对于输入用户特征,研究者考虑了不同的用户特征,如用户人口统计信息(性别、年龄等)和预训练用户嵌入,并试图建模特征交互;

  2. 然后通过在可训练的调整后频谱域(trainable modulated spectral domain)中传播初始特征,来学习用户嵌入,这样学得的用户嵌入就可以捕捉自我中心网络中的有用信息,并过滤噪声;

  3. 接下来,研究者进一步将学得的中间表示输入到层级图表示模型中,该模型通过迭代聚类节点来学习子图嵌入;

  4. 该研究还使用新型注意力模型建模用户特征与朋友特征之间的相互作用。


实验


研究者在其收集的微信「看一看」数据和公开的微博数据集上测试了该模型对用户行为的预测效果,并选取了多类方法进行对比,包括:1)传统分类器:LR 和 RF;2)建模特征交互的深度学习方法:xDeepFM;3)基于自我中心网络的 SOTA 用户行为预测方法:DeepInf 和 Wang et al.;4)层级图表示学习方法:SAGPool、ASAP 和 StructPool。其中第 3 和第 4 类都是基于 GNN 的方法。


下表 7 展示了实验结果,从中可以看出 DiffuseGNN 模型的性能持续优于基线方法。



此外,该研究还探讨了不同模型组件对用户行为预测的影响,参见表 7 底部数据。从中我们可以发现,移除预训练嵌入和特征平滑步会导致较大的性能下降;增加二阶特征对基于微信数据的用户行为预测略有帮助,对基于微博数据集的用户行为预测效果较好;该模型在不使用人工制作用户特征的情况下也取得了不错的性能。



亚马逊云科技线上黑客松2021


这是一场志同道合的磨练,这是一场高手云集的组团竞技。秀脑洞、玩创意,3月26日至5月31日,实战的舞台为你开启,「亚马逊云科技线上黑客松2021」等你来战!

为了鼓励开发者的参与和创新,本次大赛为参赛者准备了丰厚的奖品,在一、二、三等奖之外,还特设prActIcal奖、creAtIve奖、锦鲤极客奖、阳光普照奖,成功提交作品的团队均可获赠奖品。

识别二维码,立即报名参赛。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

登录查看更多
0

相关内容

IEEE知识和数据工程事务TKDE(IEEE Transactions on Knowledge and Data Engineering)向研究人员、开发人员、管理人员、战略规划人员等用户和其他对知识和数据工程领域的最新活动和实践活动感兴趣的人员提供信息。官网地址:http://dblp.uni-trier.de/db/journals/tkde/
【WWW2021】基于图神经网络的社交好友排序
专知会员服务
48+阅读 · 2021年2月3日
【WWW2021】挖掘双重情感的假新闻检测
专知会员服务
36+阅读 · 2021年1月18日
如何学好数学?这有一份2021《数学学习路线图》请看下
专知会员服务
51+阅读 · 2020年12月19日
专知会员服务
23+阅读 · 2020年9月25日
基于旅游知识图谱的可解释景点推荐
专知会员服务
90+阅读 · 2020年9月4日
【2020新书】社交媒体挖掘,212pdf,Mining Social Media
专知会员服务
60+阅读 · 2020年7月30日
人工智能顶刊TPAMI2019最新《多模态机器学习综述》
专知会员服务
93+阅读 · 2019年10月18日
微信"看一看"个性化推荐:排序篇
DataFunTalk
4+阅读 · 2020年7月21日
裸奔的用户——数据产品之用户画像构建
产品100干货速递
4+阅读 · 2019年5月27日
网络舆情分析
计算机与网络安全
20+阅读 · 2018年10月18日
爬了自己的微信,原来好友都是这样的!
七月在线实验室
4+阅读 · 2018年1月18日
【社交网络】一文读懂社交网络分析
产业智能官
15+阅读 · 2017年10月14日
你以为自己真的了解用户画像?其实猫腻可多了
THU数据派
8+阅读 · 2017年7月12日
Arxiv
0+阅读 · 2021年6月22日
Arxiv
6+阅读 · 2018年3月25日
Arxiv
6+阅读 · 2018年3月12日
Arxiv
5+阅读 · 2017年12月29日
Arxiv
3+阅读 · 2017年8月15日
VIP会员
相关VIP内容
【WWW2021】基于图神经网络的社交好友排序
专知会员服务
48+阅读 · 2021年2月3日
【WWW2021】挖掘双重情感的假新闻检测
专知会员服务
36+阅读 · 2021年1月18日
如何学好数学?这有一份2021《数学学习路线图》请看下
专知会员服务
51+阅读 · 2020年12月19日
专知会员服务
23+阅读 · 2020年9月25日
基于旅游知识图谱的可解释景点推荐
专知会员服务
90+阅读 · 2020年9月4日
【2020新书】社交媒体挖掘,212pdf,Mining Social Media
专知会员服务
60+阅读 · 2020年7月30日
人工智能顶刊TPAMI2019最新《多模态机器学习综述》
专知会员服务
93+阅读 · 2019年10月18日
相关资讯
微信"看一看"个性化推荐:排序篇
DataFunTalk
4+阅读 · 2020年7月21日
裸奔的用户——数据产品之用户画像构建
产品100干货速递
4+阅读 · 2019年5月27日
网络舆情分析
计算机与网络安全
20+阅读 · 2018年10月18日
爬了自己的微信,原来好友都是这样的!
七月在线实验室
4+阅读 · 2018年1月18日
【社交网络】一文读懂社交网络分析
产业智能官
15+阅读 · 2017年10月14日
你以为自己真的了解用户画像?其实猫腻可多了
THU数据派
8+阅读 · 2017年7月12日
相关论文
Arxiv
0+阅读 · 2021年6月22日
Arxiv
6+阅读 · 2018年3月25日
Arxiv
6+阅读 · 2018年3月12日
Arxiv
5+阅读 · 2017年12月29日
Arxiv
3+阅读 · 2017年8月15日
Top
微信扫码咨询专知VIP会员