主题: Large-scale and high-dimensional statistical learning methods and algorithms

摘要: 在过去的二十年中,基因组学,神经科学,经济学和互联网服务等许多领域已经产生了越来越大的,具有高维,大样本量或两者兼有的数据集。这为我们提供了前所未有的机会,可以从数据中检索和推断出有价值的信息。同时,这也给统计方法和计算算法提出了新的挑战。一方面,我们希望制定一个合理的模型来捕获所需的结构并提高统计估计和推断的质量。另一方面,面对越来越大的数据集,计算可能是一个很难得出有意义结论的障碍。本文站在两个主题的交集上,提出了统计方法来捕获数据中的所需结构,并寻求可扩展的方法来优化超大型数据集的计算。我们提出了使用套索/弹性网解决大规模稀疏回归问题的可扩展且灵活的框架,以及在存在多个相关响应和其他细微差别(例如缺失值)的情况下解决稀疏降阶回归的可扩展框架。针对R软件包snpnet和multiSnpnet中PLINK 2.0格式的基因组数据开发了优化的实现。这两种方法已在UK Biobank的超大型和超大规模研究中得到证明,并且与传统的预测建模方法相比有了显着改进。此外,我们考虑另一类高维问题,即异类因果效应估计。与监督学习不同,此类问题的主要挑战在于,在历史数据中,我们从未观察到硬币的另一面,因此我们无法获得治疗之间真正差异的地面真理。我们建议采用非参数统计学习方法,尤其是梯度增强和多元自适应回归样条,以根据可用的预测因子来估计治疗效果。

成为VIP会员查看完整内容
21

相关内容

斯坦福大学(StanfordUniversity)位于加利福尼亚州,临近旧金山,占地35平方公里,是美国面积第二大的大学。它被公认为世界上最杰出的大学之一,相比美国东部的常春藤盟校,特别是哈佛大学、耶鲁大学,斯坦福大学虽然历史较短,但无论是学术水准还是其他方面都能与常春藤名校相抗衡。斯坦福大学企业管理研究所和法学院在美国是数一数二的,美国最高法院的9个大法官,有6个是从斯坦福大学的法学院毕业的。
因果关联学习,Causal Relational Learning
专知会员服务
178+阅读 · 2020年4月21日
【大规模数据系统,552页ppt】Large-scale Data Systems
专知会员服务
57+阅读 · 2019年12月21日
【机器学习】深入剖析机器学习中的统计思想
产业智能官
14+阅读 · 2019年1月24日
论文浅尝 | 知识图谱相关实体搜索
开放知识图谱
14+阅读 · 2018年12月18日
成为顶尖机器学习算法专家需要知道哪些算法?
云栖社区
5+阅读 · 2018年10月13日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
随波逐流:Similarity-Adaptive and Discrete Optimization
我爱读PAMI
5+阅读 · 2018年2月6日
Talking-Heads Attention
Arxiv
15+阅读 · 2020年3月5日
Optimization for deep learning: theory and algorithms
Arxiv
102+阅读 · 2019年12月19日
Few-shot Learning: A Survey
Arxiv
362+阅读 · 2019年4月10日
Arxiv
11+阅读 · 2018年7月8日
Arxiv
8+阅读 · 2018年5月15日
VIP会员
微信扫码咨询专知VIP会员