在过去的几十年里,技术的进步导致了许多领域数据的快速增长。如此丰富的数据为数据分析带来了巨大的机遇,同时也带来了巨大的挑战:数据集往往包含数十万个具有复杂依赖关系的变量,这给统计推断带来了困难。例如,在一个社交网络中,每个人的行为都可能以复杂的方式受到其他许多人的行为的显著影响。因此,在分析数据时,不能假定数据是独立的。同样,在遗传学中,一个性状可能与大量的遗传变异相关,这些变异之间的关系不能用简单的模型有效地总结出来。在这两个例子和许多其他现实问题中,数据集具有标准统计方法难以处理的依赖结构。因此,开发工具在这种复杂的依赖结构下进行统计推断是很有意义的。本论文对复杂统计模型中的因果和选择性推理的工具箱做出了贡献。其中一个有趣的主题是,在个体主体相互依存的情况下,开发各种方法来回答各种因果问题。第二章和第三章发展了干扰下治疗效果估计的统计理论和方法。另一个有趣的主题是在数据集中许多看起来有前途的依赖结构中识别重要的依赖结构。在特定变量具有科学意义且许多解释性变量与该变量潜在相关的设置中,目标是构建工具来有把握地选择哪些变量对于解释感兴趣的变量是重要的。第四章和第五章讨论了假发现率控制下的变量选择问题。
我们生活在大数据时代,数据集往往很大,结构复杂。这些复杂的结构给统计推断带来了挑战,也带来了机遇。本文从因果推理和选择推理两个角度对复杂统计模型中如何进行统计推理进行了研究。经典地说,因果推理通常是在独立的假设下进行的。然而,现代数据集往往带有复杂的依赖结构。一个例子是社交网络数据集:个体的行为以复杂的方式依赖于他人的行为,这意味着独立假设是无效的。在缺乏独立性假设的情况下,将需要新的工具来研究具有这种依赖性结构的某些治疗的因果关系。关于选择性推理,科学家测量数千甚至数百万个变量,并试图找到感兴趣的结果与这些变量之间的有意义的关系。一个重要的问题是有把握地选择影响利益结果的变量。我将在接下来的章节和接下来的章节中更详细地讨论这两个视角。
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“CSI” 就可以获取《【斯坦福大学博士论文】复杂统计模型中的因果和选择性推理,274页pdf》专知下载链接