跨越科学、社会科学和工程,应用统计学家寻求从日益庞大的数据集中建立对复杂关系的理解。例如,在统计遗传学中,我们在数千个个体中观察到多达数百万个基因变异,并希望将这些变异与疾病的发展联系起来。对于像这样的“高维”问题,线性建模和贝叶斯统计语言很有吸引力,因为它们提供了可解释性、一致的不确定性和跨相关数据集共享信息的能力。但与此同时,高维数引入了一些现有方法无法解决的挑战。
本文解决了在高维应用贝叶斯方法时出现的三个挑战。第一个挑战是如何应用层次模型(贝叶斯推断的支柱),在多个线性模型之间共享具有多个协变量的信息(例如,多种相关疾病的遗传研究)。论文的第一部分论证了默认的分层线性建模方法在高维情况下的失败,并提出了一种新的有效的模型。论文的第二部分解决了高维贝叶斯推理所带来的计算挑战——现有的方法要求时间与协变量的数量成超线性关系。我们提出了两种算法,通过利用(i)数据的低秩逼近或(ii)跨特定类别的马尔可夫链蒙特卡洛算法的并行性,允许快速、准确的推理。论文的最后部分探讨了评价的挑战。现代统计学为估计未知参数提供了广泛的工具,典型的贝叶斯分析通过相信主观先验假设来证明其估计。我们通过引入新的估计的置信度(“c值”)来解决这个问题,它可以诊断贝叶斯估计的准确性,而不需要这种主观主义。