数学模型告诉你：网络社区和“网红们”是怎样形成的？

2022 年 1 月 15 日 学术头条

随着研究的快速发展，如今在线社交网络也在演变出了新的形式。

与 21 世纪头十年蓬勃发展的 Facebook 和 LinkedIn 这些平台相比，今天最流行的平台，如 Twitter、Instagram 或抖音、快手，明显呈现出了一些不同的特点。

最显著的区别之一是，这些新的在线社交平台都是定向网络，不需要用户相互认识或有关联，它们都是基于用户生成内容（User Generated Content ，UGC）。

2020 年，每天就有 5 亿推文以及 8000 万 Instagram 图片发出。由于这些平台使用了标签，并整合了搜索引擎，这些社交平台鼓励用户根据自己的兴趣来探索平台的内容。因此，用户倾向于关注现实生活中的陌生人，并创建基于兴趣的社区。

鉴于基于 UGC 的在线社交平台对公众意见和经济行为的潜在深远影响，以及其具有高度影响力的节点的传播潜力，我们十分有必要理解 UGC 是如何与“网红”的出现联系起来的，以及理解“网红”产生的网络的属性。

最近，研究者们首次提出了一种用于定向网络形成的数学模型。这篇发表于 Nature Communication 的论文题目为 A meritocraticnetwork formation model for the rise of social media influencers。

他们从理论和数值上分析了社交网络在不同的相遇概率下的平衡特性:在具有普遍的现实网络特性时，如标度律或小世界效应，该模型预测了网络预期度在质量排名方面遵循 Zipf 定律。值得注意的是，与基于优先相遇模拟的推荐系统相比，该模型具有鲁棒性。

这一理论结果通过从 Twitch（在线游戏平台）收集的大量数据得到了验证。

直观地说，高质量的作品更有可能吸引用户，因为它具有更高的情感价值。

因此，这些平台的网络形成过程取决于一个基本要素，即内容的质量。

然而迄今为止，除了用户的相遇概率与个体的适应度属性成比例的适应度模型外，对网络形成研究的大量多学科兴趣，只关注线下社交网络（或模仿它们的在线社交网络，如 Facebook）中的拓扑和社会经济方面，而忽视了内容质量的影响。

例如，社会学中的随机面向角色模型和经济学中的战略网络形成模型。

假设角色根据基于社会学元素的功利原则来决定互惠或网络闭合关系。这些模型通常会走向以双边社会联系和高传递性为特征的网络。然而，在 Instagram 上，只有 14% 的关系是互惠的，平均聚类系数小于 10%（相比之下，在 Facebook 上的互惠和聚类系数分别为 100% 和 30%）。

在随机图形模型中，由 Barábasi 和 Albert 提出的优先推荐模型得到了广泛的认可。虽然这种机制导致了在许多现实世界网络中观察到的无尺度效应，但这种“粉丝越多的人越能吸引其他人的关注”的理论，并不能证明 Instagram 网红的崛起是合理的。

定向的、基于用户内容的社交网络的盛行，以及适当的数学模型的缺乏，启发研究人员从一个前所未有的角度来思考它们的形成过程。

在论文中，研究人员提出了一个简单但可预测的网络形成机制，该机制结合了功利主义原则和内容质量。

他们假设用户有共同的兴趣，并将其与定义其内容质量的属性联系起来。

为了定义一个基于内容的网络的形成过程，他们收集了一个关于复杂网络科学家的纵向 Twitter 数据集。

与其他数据集相比，其优势之一是，大多数复杂网络科学家在 Twitter 上都很活跃，因为他们一直在研究社交网络的影响。此外，最受欢迎的节点很容易与该领域的知名研究人员联系在一起。可以说，粉丝的数量可以被视为用户生成内容质量的一个代表。研究人员通过手动检查和标记度最高的节点来支持这一假设。

通过分析连接的时间序列，研究发现，定向社交网络的形成过程源于个体对更高质量的内容的持续搜索。

以内容质量为基础的模型

为了规范质量模型，研究人员考虑了 N≥2 个 agent 的未加权有向网络，这些 agent 的 UGC 围绕着一个特定的共同兴趣，例如一个特定的旅游目的地。

研究人员用 aij∈{0,1} 表示从i到j的有向关系，其中 aij=1 意味着 i 关注了 j。然后，假设不存在自循环，每个 agent i 只能控制它的粉丝 aij，而不能控制她的粉丝 aji。

与适应度模型中的方法类似，研究人员赋予每个参与者 i 一个属性 qi，它来自于一个概率分布，例如均匀分布、正态分布、指数分布，它描述了 i 内容的平均质量，例如在旅游目的地拍摄的一张照片。该模型预测是独立于这些质量的数字表示的，并不是主观和任意的。相反，在模型中，只有个体质量的排序才是重要的。因此，与适应度模型相反，底层概率分布的选择不影响以下任何结果。

质量 qi 可以被看作是一个伯努利随机变量 qi 的期望，qi 描述了追随者喜欢 agent i 内容的概率。更高的 q 值与更好的 UGC 相关。相反，零值可以用来建模那些不产生任何 UGC 的用户。通过这种设置，该模型可以直接应用于平台，如 YouTube 或 Twitch，其中用户可以被划分为两个类别，即内容创造者和他们的粉丝（或观众）。

然后，研究人员考虑一个从空网络开始的顺序动态过程，在每个时间步 t∈{1,2，…}，每个参与者 i 从 {1，…，i−1,i+1，…，N} 的概率分布中随机选择另一个不同的参与者 j。在接下来的理论分析中考虑均匀分布。研究人员也在讨论中整合了均匀分布和基于度的优先相遇过程之间的数值比较。

研究结果

他们分析和研究了所提出的网络模型形成的动因，以及在不同的相遇概率函数下的网络在平衡状态下的性质。

首先，研究人员发现用户外度分布具有类似于伽马分布的特征，期望等于网络大小的谐波数。此外，由此产生的网络具有现实社会网络的特性，如很小但依然存在的聚类系数，以及由于具有相似兴趣的网络代理的同质性，而且粉丝集合中存在显著重叠。

另外，度内分布满足缩放特性，研究人员还发现了一个特定的模式:质量最高的节点拥有的粉丝数量期望是第二的两倍(是第三的三倍)。以此类推。这一经验规律已在许多系统中被验证，并被称为齐夫定律（Zipf’s law）。值得注意的是，这个结果与推荐系统(它增加了流行节点的可见性)的影响相比是稳定的。

作者强调的是，尽管人们普遍认为齐夫定律在对象增长的系统中普遍存在，但它的起源的原则是一个开放的研究问题，论文的质量规则解释了一个直观的、精英管理的机制。

最后，为了验证这一模型，研究人员从热门在线游戏平台 Twitch 收集了 3 组数据。与理论预测的成功比较表明，该模型虽然简单，但已经成功找到了几个现实网络的属性。

实验设置

为了验证基于质量的模型的统计结果，研究人员在 Twitch 上收集了三个数据集。

Twitch 是一个专注于视频流的在线社交媒体平台，在游戏玩家中非常受欢迎。Twitch 用户可以创建自己的专用频道来直播游戏。他们的质量内容可以根据特定游戏的类别进行浏览。因此，用户可以观看他人的流媒体内容，并最终成为粉丝。

处理复杂的现实网络会带来几个问题。特别是，系统不仅在网络联系方面不断变化，而且随着新的节点（用户）加入和离开网络而不断变化。

为了具体验证模型结果，研究人员首先需要确定一个共同兴趣的合适类别，第二需要重建对这个类别感兴趣的用户之间的社交网络。根据建模假设，系统对于用户集是封闭的，网络的形成过程是用户对某一特定主题感兴趣的结果。在 Twitch 的背景下，这要求用户对一款（且只有一款）特定游戏或主题的兴趣是固定的。

为了最小化用户兴趣不稳定的可能性，研究人员将爬虫设置限制在以下三种类型的用户:象棋、扑克和艺术中的一种。

此外，通过语言过滤数据，只保留绝大多数的英语用户。这样，就避免了多个重叠连贯数据集的可能性。研究人员使用兴趣指数来保留那些始终在选定的类别中进行流媒体的用户，并过滤掉那些可能因为在其他类别中进行流媒体而积累了大量用户的用户。根据这一标准的结果，研究人员决定排除与艺术类别相关的数据集。

然后研究人员设置了两个基于国际象棋和扑克类别的 Twitch 数据。

在 Twitch 上，并非所有用户都提供他们的 UGC，因此节点可以分为两类:主播以及观众。

由于两个分区严重不平衡，该网络可以近似地认为是一个准二部网络，其中观众之间几乎没有联系，主播之间的联系很少（绝对数量上），而且大多数联系都是由观众直接指向主播的。结果显示，这种特定的网络结构，即类二部网络，与模型预测是一致的。

总而言之，这项研究提出了一个描述社交网络形成的数学模型，在这个模型中，用户会根据他们的兴趣和内容质量决定是否关注某一个人。

然后，在一个由 6,000 多名科学家组成的网络中，他们针对 Twitter 数据测试了这个模型。结果表明，用户的目标是提高他们接收到的内容质量，并会持续不断地发现最优质内容的提供者。论文团队发现，制作最高质量内容的用户，其粉丝数量往往是次优用户的两倍，而且这个差距是可以依此类推的。

最后，作者使用 Twitch 的数据集验证了他们的模型。他们认为，该模型比以前的模型更真实地反映了流行度和网络结构的演变。这些发现为了解社交网络社区和 KOL 的形成机制提供了见解。

关于【数据实战派】

【学术头条】与【数据实战派】是我们科学+科技内容联合体的主要成员。

【数据实战派】致力于打造一个不用感叹号的新兴 AI 内容自媒体，围绕“计算+智能（computing+intelligence）”技术，力求从种种杂音和噪声中，压缩出更纯粹且重要的知识，助力中国 AI 开发者的高速成长。

目前，【数据实战派】由一批具有 AI/CS 专业背景的作者及资深科技编辑共同运营，并已聚拢一大批有着深度阅读习惯、优质内容品位的读者。我们期待有志之士的加入，共同打造高规格的 AI 技术社区。

点这里关注我👇记得标星~

热门视频推荐

更多精彩视频，欢迎关注学术头条视频号

winter

【学术头条】持续招募中，期待有志之士的加入

强势招募兼职作者！邀你书写前沿科技内容

2021-12-21

登录查看更多

相关内容

网络社区

关注 1

网络社区

【KDD2021】社交媒体假新闻传播的因果理解

专知会员服务

24+阅读 · 2021年9月21日

【KDD2021】基于生成对抗图网络的不平衡网络嵌入

专知会员服务

27+阅读 · 2021年9月10日

【干货书】计算机科学家的数学，153页pdf

专知会员服务

174+阅读 · 2021年7月27日

【KDD2021】高效数据特定模型搜索的协同过滤

专知会员服务

15+阅读 · 2021年6月26日

【ICML2021】基于子图结构的GNN解释模型

专知会员服务

50+阅读 · 2021年6月2日

到底什么是GNN？《图神经网络理论基础》这份DeepMind大牛Petar讲授，附96页ppt与视频

专知会员服务

86+阅读 · 2021年2月26日

【WWW2021】基于图神经网络的社交好友排序

专知会员服务

50+阅读 · 2021年2月3日

如何学好数学？这有一份2021《数学学习路线图》请看下

专知会员服务

73+阅读 · 2021年1月8日

KDD20 | 面向时态交互网络的数据驱动图生成模型

专知会员服务

24+阅读 · 2020年9月25日

【CIKM2020】学习个性化网络搜索会话

专知会员服务

15+阅读 · 2020年9月20日

你会信任哪些平台的评分评价？

ZEALER订阅号

0+阅读 · 2022年3月20日

给GNN一堆数据，它自己发现了万有引力定律

图与推荐

0+阅读 · 2022年3月15日

「Web3之父」回答：Web3究竟是什么？

新智元

5+阅读 · 2022年1月10日

“Web3之父”回答：Web3究竟是什么？

学术头条

3+阅读 · 2022年1月6日

北大新研究用数学模型揭网红崛起奥秘！登上Nature子刊

新智元

0+阅读 · 2021年12月6日

SIGIR'21 | 推荐系统中的多关系图神经网络

图与推荐

3+阅读 · 2021年10月10日

你的「在看」有人看，清华研究者从微信「看一看」里发现了这些规律

机器之心

0+阅读 · 2021年5月6日

基于“朋友在看”的好友增强型推荐 | ECML-PKDD20

微信AI

0+阅读 · 2020年9月2日

详文解读微信「看一看」多模型内容策略与召回

微信AI

1+阅读 · 2020年7月15日

网络舆情分析

计算机与网络安全

20+阅读 · 2018年10月18日

基于唯象分析的社会经济网络演化机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

社交网络形成与演化规律的定量分析模型及其应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

网络购物平台商品质量管控作用机理及其演进研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于主题关注模型的在线社交网络社区发现与信息传播机理研究

国家自然科学基金

2+阅读 · 2014年12月31日

跨网络社会学习对移动用户创新扩散的影响研究

国家自然科学基金

0+阅读 · 2014年12月31日

社交媒体环境下虚拟社会资本的形成机理与影响研究

国家自然科学基金

0+阅读 · 2013年12月31日

双层耦合在线社交网络拓扑演化与信息传播模型研究

国家自然科学基金

2+阅读 · 2013年12月31日

“中立性”用户创造内容的作用机制与形成模式研究

国家自然科学基金

0+阅读 · 2013年12月31日

网络科学中谱图理论

国家自然科学基金

4+阅读 · 2012年12月31日

微博热点话题传播模型与可视化研究

国家自然科学基金

0+阅读 · 2012年12月31日

Improving generalization of machine learning-identified biomarkers with causal modeling: an investigation into immune receptor diagnostics

Arxiv

0+阅读 · 2022年4月20日

Transformer Feed-Forward Layers Build Predictions by Promoting Concepts in the Vocabulary Space

Arxiv

0+阅读 · 2022年4月20日

Training Graph Neural Networks with 1000 Layers

Arxiv

13+阅读 · 2021年6月14日

A Survey of Transformers

Arxiv

103+阅读 · 2021年6月8日

GAN Inversion: A Survey

Arxiv

19+阅读 · 2021年1月14日

Graph Transformer Networks

Arxiv

15+阅读 · 2020年2月5日

Mining Disinformation and Fake News: Concepts, Methods, and Recent Advancements

Arxiv

16+阅读 · 2020年1月2日

Graph Neural Networks for Social Recommendation

Arxiv

20+阅读 · 2019年11月23日

Blockchain for Future Smart Grid: A Comprehensive Survey

Arxiv

21+阅读 · 2019年11月8日

Estimating Node Importance in Knowledge Graphs Using Graph Neural Networks

Arxiv

25+阅读 · 2019年5月21日

VIP会员