在过去的20年里,基因组学、神经科学、经济学和互联网服务等许多领域产生了越来越多的大数据集,这些数据集有高维、大样本,或者两者兼之。这为我们从数据中检索和推断有价值的信息提供了前所未有的机会。同时,也对统计方法和计算算法提出了新的挑战。一方面,我们希望建立一个合理的模型来捕获所需的结构,并提高统计估计和推断的质量。另一方面,面对越来越大的数据集,计算可能成为一个巨大的障碍,以得出有意义的结论。这篇论文站在两个主题的交叉点,提出了统计方法来捕获所需的数据结构,并寻求可扩展的方法来优化计算非常大的数据集。我们提出了一种可扩展的灵活框架,用于利用lasso/elastic-net解决大规模稀疏回归问题; 提出了一种可伸缩的框架,用于在存在多个相关响应和其他细微差别(如缺失值)的情况下解决稀疏缩减秩回归问题。分别在snpnet和multiSnpnet R包中以PLINK 2.0格式为基因组数据开发了优化的实现。这两种方法在超大和超高维的英国生物样本库研究中得到了验证,与传统的预测建模方法相比有了显著的改进。此外,我们考虑了一类不同的高维问题,异质因果效应的估计。与监督学习的设置不同,这类问题的主要挑战在于,在历史数据中,我们从未观察到硬币的另一面,因此我们无法获得处理之间真正差异的基本真相。我们提出适应非参数统计学习方法,特别是梯度增强和多元自适应回归样条,以估计处理效果的预测器可用。实现被打包在一个R包causalLearning中。