【斯坦福博士论文】人类网络与高风险决策的计算方法

在一个互联的世界中，制定有效政策日益依赖于对复杂人类网络的理解，例如用于疫情应对的接触网络、增强经济韧性的供应链网络，以及用于信息传播的社会网络。然而，要理解人类网络及其与政策的关系面临诸多挑战。首先，现实世界中在网络上展开的过程非常复杂（如疾病传播），而用于拟合这些过程模型的数据却十分稀缺。其次，在许多情况下，由于数据缺失或隐私限制，我们甚至无法获得完整的网络信息，导致只能观察到部分网络。第三，人类网络不仅会影响政策结果，政策也会改变这些网络的结构，因此需要对政策对网络的影响进行可靠估计。最后，即使拥有最先进的技术模型，制定有效政策仍常取决于人类因素：人们对政策的真实感受如何，我们又如何从数据中提取这些信息？ 本论文聚焦于人类网络与政策交汇处的四个核心挑战。在第一部分，我研究了复杂过程在疫情背景下的表现，我们开发了一种流行病学模型，该模型整合了包含数十亿小时级边的流动网络，从而能够精细建模COVID-19的传播，而仅需三个模型参数。在第二部分，我探讨了部分观察网络的两种情景：动态网络（我们仅能观察其时变边缘分布和时间聚合的邻接矩阵）以及供应链网络（我们观察到企业之间的交易，但缺失企业内部生产函数的信息），并描述了我们为推断这些缺失部分所开发的方法。在第三部分，我研究了估计政策对网络影响的问题，并提出了两种方法：一种是基于数据的观察性因果推断框架，另一种是基于模型的理论分析。最后，在第四部分，我们深入分析了两种丰富的数据来源：搜索日志和政治演讲，这些数据揭示了人们对政策的态度，以及我们如何开发机器学习系统，从这些庞大且未标注的数据集中提取精确的、与政策相关的信号。

引言

人类网络构成了我们社会的基础。这些网络反映了我们之间多样的关系：谁与谁是朋友，谁与谁有身体接触，谁消费相同的新闻或购买相同的产品，等等。随着世界变得日益互联，人类网络在社会面临的重大挑战中发挥着越来越重要的作用。COVID-19疫情提供了一个典型的例子：COVID-19已在全球至少造成700万人死亡 [1]，疫情还导致了巨大的经济和社会成本。在COVID-19等传染病的核心，是人类接触网络。首先，一组种子节点被感染，随后可能感染其接触者（即网络中的邻居），这些接触者如果被感染，可能继续感染他们的接触者，以此类推。因此，接触网络的结构调控了疾病的传播，极大地影响了疾病传播的范围、速度以及传播对象。这些特性为决策者提供了干预依据，例如在哪里实施封锁、如何安全地重新开放以及如何减少健康差距。全球供应链是另一个例子：供应链本质上是一个网络，节点是个人或企业，边则代表它们之间的买卖关系 [2]。如果某个企业受到冲击（例如，由于自然灾害而无法继续生产其产品），该企业的买家将因失去供应而受到影响，其买家的买家也会受到影响，以此类推；反过来，该企业的卖家将失去需求，其卖家的卖家也会受到影响，以此类推 [3]。因此，冲击通过供应链传播，导致全球范围内的放大性破坏，给企业带来巨大损失。同样，供应链网络的结构调控了冲击的传播，因此理解这种结构可以为制定关键政策提供依据，例如如何提升供应链的韧性以及在破坏后如何更高效地恢复。

除了疫情和供应链，人类网络在许多社会挑战中扮演着核心角色：社交网络影响意见和极化 [4, 5]，交通网络为城市规划提供信息 [6]，用户-物品网络影响推荐系统 [7]，流动网络帮助解释隔离和不平等现象 [8]，等等。在所有这些领域，做出有效决策都依赖于对这些人类网络的理解。然而，由于数据的局限性和现实世界的复杂性，理解人类网络及其与政策的关系面临多种挑战。

**复杂网络过程（第一部分）

首先，在网络上展开并为政策提供依据的过程（例如，疾病在接触网络上的传播或冲击在供应链中的传播）非常复杂。例如，疾病在接触网络上的传播高度依赖接触的类型，例如接触是否发生在室内或室外，接触的距离和持续时间，以及个体的易感性或传染性。此外，用于拟合这些过程模型的数据往往稀缺：例如，在流行病学背景下，我们通常只能获得整个地区的每日报告病例，而疾病的传播实际上发生在个体层面。因此，复杂动态与稀缺数据的结合需要创造性的方法，既能捕捉复杂性又不过度拟合现有数据。

**部分观察网络（第二部分）

其次，在许多情况下，由于数据缺失或隐私限制，我们甚至无法获得完整的网络。例如，在疫情背景下，大多数国家并不确切知道谁与谁有过接触。在供应链的背景下，我们也无法观察到买卖关系的完整图谱，因为企业通常不愿意公开这些信息，我们也缺乏企业内部如何将投入转化为产出的关键信息。然而，我们往往能够获取部分网络信息，例如聚合的流动数据或某些企业的买卖关系。因此，如何利用这些数据，从部分观察网络中学习是一个关键问题。

**政策对网络的影响（第三部分）

第三，人类网络并非静态的。政策不仅可能改变网络上过程的展开方式，还可能改变网络本身的结构。然而，研究政策对人类网络的影响非常困难，因为在高风险环境下，我们通常无法进行随机试验。相反，我们要么求助于基于模型的反事实分析，要么从观察数据中估计因果效应，这往往受到潜在混杂因素的影响（例如，更高的COVID-19感染率可能预测更严格的政策，但也可能自行改变行为）。此外，由于个体的结果可能受其邻居所接受治疗的影响，网络可能违反因果推断中没有单元间干扰的假设，因此需要特别关注可能的溢出效应。

**人类因素（第四部分）

最后，有效政策制定的关键瓶颈往往不是技术或科学上的挑战，而是人类因素。政策并非在真空中制定：决策者会受到超出数据或模型的信息的影响，例如政治、选民的要求或无法通过数据捕捉的信息。一旦政策实施，个人的反应还取决于个人因素，例如他们的信念、信任对象以及如何权衡风险和收益。人类生成的数据（例如搜索引擎日志、社交媒体和演讲）提供了洞察这些个人因素的窗口。然而，这些数据源通常规模巨大，包含大量与政策问题无关的信息，并且未被标注，需要能够在最小标注下精准识别相关信号的方法。

成为VIP会员查看完整内容

相关内容

博士论文

关注 126

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【斯坦福博士论文】协作多机器人学习算法

专知会员服务

17+阅读 · 1月6日

【伯克利博士论文】在大规模语言模型时代构建自主系统

专知会员服务

40+阅读 · 2024年12月28日

【普林斯顿博士论文】理解数据在模型决策中的作用

专知会员服务

41+阅读 · 2024年4月26日

【牛津大学博士论文】鲁棒神经网络:评估与构建

专知会员服务

35+阅读 · 2022年10月23日