主题: Large-scale and high-dimensional statistical learning methods and algorithms
摘要: 在过去的二十年中,基因组学,神经科学,经济学和互联网服务等许多领域已经产生了越来越大的,具有高维,大样本量或两者兼有的数据集。这为我们提供了前所未有的机会,可以从数据中检索和推断出有价值的信息。同时,这也给统计方法和计算算法提出了新的挑战。一方面,我们希望制定一个合理的模型来捕获所需的结构并提高统计估计和推断的质量。另一方面,面对越来越大的数据集,计算可能是一个很难得出有意义结论的障碍。本文站在两个主题的交集上,提出了统计方法来捕获数据中的所需结构,并寻求可扩展的方法来优化超大型数据集的计算。我们提出了使用套索/弹性网解决大规模稀疏回归问题的可扩展且灵活的框架,以及在存在多个相关响应和其他细微差别(例如缺失值)的情况下解决稀疏降阶回归的可扩展框架。针对R软件包snpnet和multiSnpnet中PLINK 2.0格式的基因组数据开发了优化的实现。这两种方法已在UK Biobank的超大型和超大规模研究中得到证明,并且与传统的预测建模方法相比有了显着改进。此外,我们考虑另一类高维问题,即异类因果效应估计。与监督学习不同,此类问题的主要挑战在于,在历史数据中,我们从未观察到硬币的另一面,因此我们无法获得治疗之间真正差异的地面真理。我们建议采用非参数统计学习方法,尤其是梯度增强和多元自适应回归样条,以根据可用的预测因子来估计治疗效果。