在过去的20年里,基因组学、神经科学、经济学和互联网服务等许多领域产生了越来越多的大数据集,这些数据集有高维、大样本,或者两者兼之。这为我们从数据中检索和推断有价值的信息提供了前所未有的机会。同时,也对统计方法和计算算法提出了新的挑战。一方面,我们希望建立一个合理的模型来捕获所需的结构,并提高统计估计和推断的质量。另一方面,面对越来越大的数据集,计算可能成为一个巨大的障碍,以得出有意义的结论。这篇论文站在两个主题的交叉点,提出了统计方法来捕获所需的数据结构,并寻求可扩展的方法来优化计算非常大的数据集。我们提出了一种可扩展的灵活框架,用于利用lasso/elastic-net解决大规模稀疏回归问题; 提出了一种可伸缩的框架,用于在存在多个相关响应和其他细微差别(如缺失值)的情况下解决稀疏缩减秩回归问题。分别在snpnet和multiSnpnet R包中以PLINK 2.0格式为基因组数据开发了优化的实现。这两种方法在超大和超高维的英国生物样本库研究中得到了验证,与传统的预测建模方法相比有了显著的改进。此外,我们考虑了一类不同的高维问题,异质因果效应的估计。与监督学习的设置不同,这类问题的主要挑战在于,在历史数据中,我们从未观察到硬币的另一面,因此我们无法获得处理之间真正差异的基本真相。我们提出适应非参数统计学习方法,特别是梯度增强和多元自适应回归样条,以估计处理效果的预测器可用。实现被打包在一个R包causalLearning中。

成为VIP会员查看完整内容
101

相关内容

【经典书】概率统计导论第五版,730页pdf
专知会员服务
234+阅读 · 2020年7月28日
【经典书】机器学习:贝叶斯和优化方法,1075页pdf
专知会员服务
389+阅读 · 2020年6月8日
【综述】金融领域中的深度学习,附52页论文下载
专知会员服务
161+阅读 · 2020年2月27日
普林斯顿大学经典书《在线凸优化导论》,178页pdf
专知会员服务
183+阅读 · 2020年2月3日
最新《分布式机器学习》论文综述最新DML进展,33页pdf
专知会员服务
117+阅读 · 2019年12月26日
【学界】基于生成对抗网络的低秩图像生成方法
GAN生成式对抗网络
9+阅读 · 2018年7月13日
贝叶斯机器学习前沿进展
无人机
7+阅读 · 2018年1月26日
干货|掌握机器学习数学基础之优化[1](重点知识)
机器学习研究会
9+阅读 · 2017年11月19日
Talking-Heads Attention
Arxiv
15+阅读 · 2020年3月5日
Arxiv
135+阅读 · 2018年10月8日
Arxiv
4+阅读 · 2017年10月30日
VIP会员
微信扫码咨询专知VIP会员