主题: Large-scale and high-dimensional statistical learning methods and algorithms

摘要: 在过去的二十年中,基因组学,神经科学,经济学和互联网服务等许多领域已经产生了越来越大的,具有高维,大样本量或两者兼有的数据集。这为我们提供了前所未有的机会,可以从数据中检索和推断出有价值的信息。同时,这也给统计方法和计算算法提出了新的挑战。一方面,我们希望制定一个合理的模型来捕获所需的结构并提高统计估计和推断的质量。另一方面,面对越来越大的数据集,计算可能是一个很难得出有意义结论的障碍。本文站在两个主题的交集上,提出了统计方法来捕获数据中的所需结构,并寻求可扩展的方法来优化超大型数据集的计算。我们提出了使用套索/弹性网解决大规模稀疏回归问题的可扩展且灵活的框架,以及在存在多个相关响应和其他细微差别(例如缺失值)的情况下解决稀疏降阶回归的可扩展框架。针对R软件包snpnet和multiSnpnet中PLINK 2.0格式的基因组数据开发了优化的实现。这两种方法已在UK Biobank的超大型和超大规模研究中得到证明,并且与传统的预测建模方法相比有了显着改进。此外,我们考虑另一类高维问题,即异类因果效应估计。与监督学习不同,此类问题的主要挑战在于,在历史数据中,我们从未观察到硬币的另一面,因此我们无法获得治疗之间真正差异的地面真理。我们建议采用非参数统计学习方法,尤其是梯度增强和多元自适应回归样条,以根据可用的预测因子来估计治疗效果。

成为VIP会员查看完整内容
0
15

相关内容

斯坦福大学(StanfordUniversity)位于加利福尼亚州,临近旧金山,占地35平方公里,是美国面积第二大的大学。它被公认为世界上最杰出的大学之一,相比美国东部的常春藤盟校,特别是哈佛大学、耶鲁大学,斯坦福大学虽然历史较短,但无论是学术水准还是其他方面都能与常春藤名校相抗衡。斯坦福大学企业管理研究所和法学院在美国是数一数二的,美国最高法院的9个大法官,有6个是从斯坦福大学的法学院毕业的。

在过去的20年里,基因组学、神经科学、经济学和互联网服务等许多领域产生了越来越多的大数据集,这些数据集有高维、大样本,或者两者兼之。这为我们从数据中检索和推断有价值的信息提供了前所未有的机会。同时,也对统计方法和计算算法提出了新的挑战。一方面,我们希望建立一个合理的模型来捕获所需的结构,并提高统计估计和推断的质量。另一方面,面对越来越大的数据集,计算可能成为一个巨大的障碍,以得出有意义的结论。这篇论文站在两个主题的交叉点,提出了统计方法来捕获所需的数据结构,并寻求可扩展的方法来优化计算非常大的数据集。我们提出了一种可扩展的灵活框架,用于利用lasso/elastic-net解决大规模稀疏回归问题; 提出了一种可伸缩的框架,用于在存在多个相关响应和其他细微差别(如缺失值)的情况下解决稀疏缩减秩回归问题。分别在snpnet和multiSnpnet R包中以PLINK 2.0格式为基因组数据开发了优化的实现。这两种方法在超大和超高维的英国生物样本库研究中得到了验证,与传统的预测建模方法相比有了显著的改进。此外,我们考虑了一类不同的高维问题,异质因果效应的估计。与监督学习的设置不同,这类问题的主要挑战在于,在历史数据中,我们从未观察到硬币的另一面,因此我们无法获得处理之间真正差异的基本真相。我们提出适应非参数统计学习方法,特别是梯度增强和多元自适应回归样条,以估计处理效果的预测器可用。实现被打包在一个R包causalLearning中。

成为VIP会员查看完整内容
0
56

本文介绍了一阶优化方法及其在机器学习中的应用。这不是一门关于机器学习的课程(特别是它不涉及建模和统计方面的考虑),它侧重于使用和分析可以扩展到具有大量参数的大型数据集和模型的廉价方法。这些方法都是围绕“梯度下降”的概念而变化的,因此梯度的计算起着主要的作用。本课程包括最优化问题的基本理论性质(特别是凸分析和一阶微分学)、梯度下降法、随机梯度法、自动微分、浅层和深层网络。

成为VIP会员查看完整内容
0
91

题目: Decision-theoretic foundations for statistical causality

摘要:

我们为企业决策理论的统计因果关系(DT)建立了一个数学和解释基础,这是一种直接表达和解决因果问题的方法。DT将因果推理重新定义为“辅助决策”,目的是了解何时以及如何利用外部数据(通常是观察性的)来帮助解决决策问题,利用数据与我的问题之间假定的关系。

因果问题的任何表述中所包含的关系都需要更深层次的证明,这必然取决于上下文。在这里,我们澄清了支持DT方法应用所需要考虑的事项。互换性考虑被用来构建所需的关系,而意图治疗和干预治疗之间的区别形成了“可忽略性”启用条件的基础。我们还展示了DT的观点是如何统一和阐明统计因果关系的其他流行形式的,包括潜在的响应和有向无环图。

成为VIP会员查看完整内容
0
29

题目: Causal Relational Learning

摘要:

因果推理是自然科学和社会科学实证研究的核心,对科学发现和知情决策至关重要。因果推理的黄金标准是进行随机对照试验;不幸的是,由于伦理、法律或成本的限制,这些方法并不总是可行的。作为一种替代方法,从观察数据中进行因果推断的方法已经在统计研究和社会科学中得到发展。然而,现有的方法严重依赖于限制性的假设,例如由同质元素组成的研究总体,这些同质元素可以在一个单平表中表示,其中每一行都被称为一个单元。相反,在许多实际环境中,研究领域自然地由具有复杂关系结构的异构元素组成,其中数据自然地表示为多个相关表。在本文中,从关系数据中提出了一个正式的因果推理框架。我们提出了一种称为CaRL的声明性语言,用于捕获因果背景知识和假设,并使用简单的Datalog类规则指定因果查询。CaRL为在关系领域中推断复杂干预的影响的因果关系和推理提供了基础。我们对真实的关系数据进行了广泛的实验评估,以说明CaRL理论在社会科学和医疗保健领域的适用性。

成为VIP会员查看完整内容
0
97

统计学习理论是一个新兴的研究领域,它是概率论、统计学、计算机科学和最优化的交叉领域,研究基于训练数据进行预测的计算机算法的性能。以下主题将包括:统计决策理论基础;集中不平等;监督学习和非监督学习;经验风险最小化;complexity-regularized估计;学习算法的泛化界VC维与复杂性;极大极小下界;在线学习和优化。利用一般理论,我们将讨论统计学习理论在信号处理、信息论和自适应控制方面的一些应用。

成为VIP会员查看完整内容
0
82

本文介绍了一阶优化方法及其在机器学习中的应用。这不是一门关于机器学习的课程(特别是它不涉及建模和统计方面的考虑),它侧重于使用和分析可以扩展到具有大量参数的大型数据集和模型的廉价方法。这些方法都是围绕“梯度下降”的概念而变化的,因此梯度的计算起着主要的作用。本课程包括最优化问题的基本理论性质(特别是凸分析和一阶微分学)、梯度下降法、随机梯度法、自动微分、浅层和深层网络。

成为VIP会员查看完整内容
0
75

题目: Automatically Discovering and Learning New Visual Categories with Ranking Statistics

摘要:

我们解决了在一个图像集合中发现新的类的问题,给出了其它类的标记示例。这种设置类似于半监督学习,但难度要大得多,因为新课程没有带标签的例子。因此,挑战在于如何利用标记图像中包含的信息来学习通用的聚类模型,并使用后者来识别未标记数据中的新类。在这项工作中,我们通过结合三个想法来解决这个问题:

  • 使用标记数据引导图像表示的方法只会引入不必要的偏差,通过使用自监督学习对标记数据和未标记数据的并集从零开始训练表示,可以避免这种偏差;
  • 利用秩统计将模型的标记类知识转化为未标记图像的聚类问题;
  • 通过优化数据的标记子集和未标记子集的联合目标函数来训练数据表示,改进了标记数据的监督分类和未标记数据的聚类。我们在标准分类基准上评估我们的方法,并在新类别发现方面显著优于现有方法。

成为VIP会员查看完整内容
0
9

题目: Optimization of Retrieval Algorithms on Large Scale Knowledge Graphs

摘要: 知识图谱在最近的知识挖掘和发现中发挥了重要的作用,例如在生命科学或生物信息学领域。虽然在查询优化、查询变换以及大规模知识图谱的存储和检索等方面已经做了大量的研究,但算法优化仍然是使用图数据的主要挑战和关键因素。在大规模标记属性图上优化算法的研究很少。在这里,我们提出了两种优化方法,并将它们与直接查询图数据库的简单方法进行了比较。我们工作的目的是确定像Neo4j这样的图形数据库的限制因素,我们描述了一个解决这些挑战的新方案。为此,我们建议使用一个分类模式来区别图数据库中问题的复杂性。我们在一个测试系统上评估我们的优化方法,该测试系统包含一个由文本挖掘数据丰富的生物医学出版物数据派生的知识图谱。这个密集的图谱有超过71M的节点和850M的关系数据。结果是非常令人鼓舞的,根据问题的不同,我们能够显示44到3839之间的加速因子。

成为VIP会员查看完整内容
0
33

主题: Large-scale Data Systems

简介: 大型数据系统是一个需较大的内存来支持的数据库管理系统内核。对设备和技术要求较高。商品化的数据库管理系统以关系型数据库为主导产品,技术比较成熟。面向对象的数据库管理系统虽然技术先进,数据库易于开发、维护,但尚未有成熟的产品。本书将依次介绍brodcast、共享内存、区域链等内容。

目录:

  • 介绍
  • 摘要
  • brodcast
  • 共享内存
  • Consensus
  • 区域链
  • 云计算
  • 分布式哈希技术
  • 分布式文件系统
成为VIP会员查看完整内容
0
40

在过去的十年里,计算和信息技术突飞猛进。它带来了医学、生物学、金融和营销等各个领域的大量数据。理解这些数据的挑战导致了统计领域新工具的发展,并催生了数据挖掘、机器学习和生物信息学等新领域。许多这些工具有共同的基础,但经常用不同的术语表示。这本书在一个共同的概念框架中描述了这些领域的重要思想。虽然方法是统计的,但重点是概念而不是数学。许多例子都给出了,与自由使用彩色图形。它应该是统计学家和任何对科学或工业数据挖掘感兴趣的人的宝贵资源。这本书的覆盖面很广,从监督学习(预测)到非监督学习。许多主题包括神经网络、支持向量机、分类树和增强——这是任何一本书中对这个主题的首次全面论述。这个主要的新版本的特点,许多主题不包括在原来的,包括图形模型,随机森林,集成方法,最小角度回归和用于lasso的路径算法、非负矩阵分解和谱聚类。还有一章是关于“宽”数据的方法(p大于n),包括多重测试和错误发现率。Trevor Hastie、Robert Tibshirani和Jerome Friedman是斯坦福大学的统计学教授。他们是这一领域的杰出研究人员:Hastie和Tibshirani开发了广义可加性模型,并就此写了一本很受欢迎的书。Hastie在S-PLUS中编写了大量的统计建模软件,并发明了主曲线和曲面。Tibshirani提出了Lasso,并且是非常成功的Bootstrap介绍的合著者。弗里德曼是许多数据挖掘工具的共同发明者,包括CART、MARS和投影追踪。

成为VIP会员查看完整内容
0
63
小贴士
相关论文
Weijie Zhao,Deping Xie,Ronglai Jia,Yulei Qian,Ruiquan Ding,Mingming Sun,Ping Li
5+阅读 · 2020年3月12日
Talking-Heads Attention
Noam Shazeer,Zhenzhong Lan,Youlong Cheng,Nan Ding,Le Hou
12+阅读 · 2020年3月5日
Optimization for deep learning: theory and algorithms
Ruoyu Sun
79+阅读 · 2019年12月19日
Few-shot Learning: A Survey
Yaqing Wang,Quanming Yao
311+阅读 · 2019年4月10日
Maria Perez-Ortiz,Peter Tino,Rafal Mantiuk,Cesar Hervas-Martinez
3+阅读 · 2019年3月24日
Anna Breger,Jose Ignacio Orlando,Pavol Harar,Monika Dörfler,Sophie Klimscha,Christoph Grechenig,Bianca S. Gerendas,Ursula Schmidt-Erfurth,Martin Ehler
3+阅读 · 2019年1月22日
A Survey of Learning Causality with Data: Problems and Methods
Ruocheng Guo,Lu Cheng,Jundong Li,P. Richard Hahn,Huan Liu
7+阅读 · 2018年9月25日
Yong Wang,Xiao-Ming Wu,Qimai Li,Jiatao Gu,Wangmeng Xiang,Lei Zhang,Victor O. K. Li
8+阅读 · 2018年7月8日
Jack Baker,Paul Fearnhead,Emily B Fox,Christopher Nemeth
3+阅读 · 2018年6月19日
Wenbin Li,Jing Huo,Yinghuan Shi,Yang Gao,Lei Wang,Jiebo Luo
7+阅读 · 2018年5月15日
Top