在过去的20年里,基因组学、神经科学、经济学和互联网服务等许多领域产生了越来越多的大数据集,这些数据集有高维、大样本,或者两者兼之。这为我们从数据中检索和推断有价值的信息提供了前所未有的机会。同时,也对统计方法和计算算法提出了新的挑战。一方面,我们希望建立一个合理的模型来捕获所需的结构,并提高统计估计和推断的质量。另一方面,面对越来越大的数据集,计算可能成为一个巨大的障碍,以得出有意义的结论。这篇论文站在两个主题的交叉点,提出了统计方法来捕获所需的数据结构,并寻求可扩展的方法来优化计算非常大的数据集。我们提出了一种可扩展的灵活框架,用于利用lasso/elastic-net解决大规模稀疏回归问题; 提出了一种可伸缩的框架,用于在存在多个相关响应和其他细微差别(如缺失值)的情况下解决稀疏缩减秩回归问题。分别在snpnet和multiSnpnet R包中以PLINK 2.0格式为基因组数据开发了优化的实现。这两种方法在超大和超高维的英国生物样本库研究中得到了验证,与传统的预测建模方法相比有了显著的改进。此外,我们考虑了一类不同的高维问题,异质因果效应的估计。与监督学习的设置不同,这类问题的主要挑战在于,在历史数据中,我们从未观察到硬币的另一面,因此我们无法获得处理之间真正差异的基本真相。我们提出适应非参数统计学习方法,特别是梯度增强和多元自适应回归样条,以估计处理效果的预测器可用。实现被打包在一个R包causalLearning中。

成为VIP会员查看完整内容
0
56

相关内容

主题: A computational framework for learning and transforming task representations

摘要: 本文首先回顾了关于认知灵活性的文献,以及在构建更灵活的人工智能系统方面的最新进展。作者提供了这些文献的综述,并概述了他认为仍然存在的挑战。作者特别关注基于零任务(即没有任何数据)的新任务适应新任务的能力,该任务基于它们与先前任务的关系。为了应对这一挑战,作者提出了一个通用的计算框架,用于根据新任务与先前任务的关系来适应新任务。该框架基于元映射,即转换基本任务的高阶任务。以同音元映射架构的形式提出了该框架的简约实现。作者将在从回归到图像分类和强化学习的各种任务和计算范例中演示该框架。作者将人类的适应能力和基于语言的零任务执行方法进行了比较。作者成功地展示了元映射,即使新任务直接与先前的经验相矛盾,通常在一项新任务上也能达到80-90%的性能。作者进一步证明,以这种适应为起点可以极大地加速以后对某项任务的学习,并将掌握过程中所犯的错误减少近一个数量级。因此,作者建议元映射可以为适应新任务提供计算基础,并为有效学习提供起点。因此,本文为建立更好的认知模型和更灵活的人工智能系统提供了框架。最后一章回顾了这项工作对有关智力必要的计算原理的持续讨论所做出的更广泛的贡献,并强调了从理解数学认知到神经科学的未来可能方向。

成为VIP会员查看完整内容
0
7

凸优化作为一个数学问题已经被研究了一个多世纪,并在许多应用领域的实践中应用了大约半个世纪,包括控制、金融、信号处理、数据挖掘和机器学习。本文主要研究凸优化的几个问题,以及机器学习的具体应用。

成为VIP会员查看完整内容
0
89

主题: Large-scale and high-dimensional statistical learning methods and algorithms

摘要: 在过去的二十年中,基因组学,神经科学,经济学和互联网服务等许多领域已经产生了越来越大的,具有高维,大样本量或两者兼有的数据集。这为我们提供了前所未有的机会,可以从数据中检索和推断出有价值的信息。同时,这也给统计方法和计算算法提出了新的挑战。一方面,我们希望制定一个合理的模型来捕获所需的结构并提高统计估计和推断的质量。另一方面,面对越来越大的数据集,计算可能是一个很难得出有意义结论的障碍。本文站在两个主题的交集上,提出了统计方法来捕获数据中的所需结构,并寻求可扩展的方法来优化超大型数据集的计算。我们提出了使用套索/弹性网解决大规模稀疏回归问题的可扩展且灵活的框架,以及在存在多个相关响应和其他细微差别(例如缺失值)的情况下解决稀疏降阶回归的可扩展框架。针对R软件包snpnet和multiSnpnet中PLINK 2.0格式的基因组数据开发了优化的实现。这两种方法已在UK Biobank的超大型和超大规模研究中得到证明,并且与传统的预测建模方法相比有了显着改进。此外,我们考虑另一类高维问题,即异类因果效应估计。与监督学习不同,此类问题的主要挑战在于,在历史数据中,我们从未观察到硬币的另一面,因此我们无法获得治疗之间真正差异的地面真理。我们建议采用非参数统计学习方法,尤其是梯度增强和多元自适应回归样条,以根据可用的预测因子来估计治疗效果。

成为VIP会员查看完整内容
0
15

【导读】《机器学习:贝叶斯和优化的视角》是雅典大学信息学和通信系的教授Sergios Theodoridis的经典著作,对所有主要的机器学习方法和新研究趋势进行了深入探索,涵盖概率和确定性方法以及贝叶斯推断方法。非常值得学习。

Sergios Theodoridis教授是雅典大学信息学和通信系的教授,香港中文大学(深圳)客座教授。他的研究领域是信号处理和机器学习。他的研究兴趣是自适应算法,分布式和稀疏性感知学习,机器学习和模式识别,生物医学应用中的信号处理和学习以及音频处理和检索。

他的几本著作与合著蜚声海内外,包括《机器学习:贝叶斯和优化的视角》以及畅销书籍《模式识别》。他是2017年EURASIP Athanasios Papoulis奖和2014年EURASIP Meritorious Service奖的获得者。

http://cgi.di.uoa.gr/~stheodor/

机器学习:贝叶斯和优化方法

本书对所有主要的机器学习方法和新研究趋势进行了深入探索,涵盖概率和确定性方法以及贝叶斯推断方法。其中,经典方法包括平均/小二乘滤波、卡尔曼滤波、随机逼近和在线学习、贝叶斯分类、决策树、逻辑回归和提升方法等,新趋势包括稀疏、凸分析与优化、在线分布式算法、RKH空间学习、贝叶斯推断、图模型与隐马尔可夫模型、粒子滤波、深度学习、字典学习和潜变量建模等。全书构建了一套明晰的机器学习知识体系,各章内容相对独立,物理推理、数学建模和算法实现精准且细致,并辅以应用实例和习题。本书适合该领域的科研人员和工程师阅读,也适合学习模式识别、统计/自适应信号处理和深度学习等课程的学生参考。

成为VIP会员查看完整内容
0
182

本文介绍了一阶优化方法及其在机器学习中的应用。这不是一门关于机器学习的课程(特别是它不涉及建模和统计方面的考虑),它侧重于使用和分析可以扩展到具有大量参数的大型数据集和模型的廉价方法。这些方法都是围绕“梯度下降”的概念而变化的,因此梯度的计算起着主要的作用。本课程包括最优化问题的基本理论性质(特别是凸分析和一阶微分学)、梯度下降法、随机梯度法、自动微分、浅层和深层网络。

成为VIP会员查看完整内容
0
90

本文介绍了一阶优化方法及其在机器学习中的应用。这不是一门关于机器学习的课程(特别是它不涉及建模和统计方面的考虑),它侧重于使用和分析可以扩展到具有大量参数的大型数据集和模型的廉价方法。这些方法都是围绕“梯度下降”的概念而变化的,因此梯度的计算起着主要的作用。本课程包括最优化问题的基本理论性质(特别是凸分析和一阶微分学)、梯度下降法、随机梯度法、自动微分、浅层和深层网络。

成为VIP会员查看完整内容
0
74

【简介】近些年,将计算智能应用于金融业已经引起了学术界和金融界的广泛关注。研究人员发布了大量的研究成果和各种各样的模型。同时,在机器学习领域,深度学习在近期也引起了大量的关注,主要是因为这些经典的深度学习模型表现优于传统模型。金融是深度学习模型开始受到关注的一个特殊领域,然而,这个领域非常开放,仍然存在很多研究机会。在这篇综述中,我们尝试着提供一个已经开发好的,可用在金融应用当中的深度学习模型。我们不仅根据模型的实现进行了分类,还对这些深度学习模型进行了分析。此外,我们还旨在确定未来深度学习模型在金融领域有可能的实现,以及强调了该领域正在进行的研究。

原始链接:

https://arxiv.org/abs/2002.05786

介绍

股票市场预测、算法交易、信用风险评估、投资组合配置、资产定价和衍生品市场都是机器学习研究人员关注的领域,他们致力于开发出能够为金融业提供实时工作解决方案的模型。因此,目前文献中存在大量有关的出版物和实现。

然而,在机器学习领域中,深度学习是一个新兴的领域,并且每年都在快速增长。结果越来越多的深度学习金融模型开始出现在会议和期刊上。我们在这篇论文中关注的是目前在金融领域深度学习模型之间的不同之处。在这种方式下,依据各自的兴趣点研究人员和从业者可以决定他们应该走哪条路。

在这篇论文中,我们尝试着为下列研究中的问题提供答案:

  • 有哪些金融应用可以用到深度学习?
  • 当前在这些应用领域中的研究现状如何?
  • 从学术/工业研究的角度来看,哪些领域有很大的潜力?
  • 在不同的应用环境中哪些深度学习模型表现更好?
  • 深度学习模型和传统的机器学习技术相比如何?
  • 在金融领域深度学习研究的未来方向是什么?

金融领域中的机器学习

早在40年前,金融就一直是最受机器学习关注的应用领域之一。到目前为止,在金融的各个领域已经发表了成千上万的研究论文,整体的兴趣似乎不会很快消失。尽管这篇调查论文仅仅关注于深度学习的实现,但是我们希望通过引用过去20年的相关调查,为读者提供一些以前在金融领域关于机器学习研究的见解。

深度学习

深度学习是一种特定类型的机器学习,由多个ANN层组成。它为数据建模提供了高级别的抽象。目前,主要的深度学习模型有以下几种:

DMLP(深度多层感知机)、CNNs、RNNs、LSTM、RBMs(受限波兹曼机)、DBNs(Deep Belief Networks 和自编码器(AEs)。

成为VIP会员查看完整内容
0
78

摘要:

本文将优化描述为一个过程。在许多实际应用中,环境是如此复杂,以致于无法制定一个全面的理论模型,并使用经典算法理论和数学优化。采取一种稳健的方法是必要的,也是有益的,方法是应用一种不断学习的优化方法,在观察到问题的更多方面时从经验中学习。这种将优化视为一个过程的观点在各个领域都很突出,并在建模和系统方面取得了一些惊人的成功,现在它们已经成为我们日常生活的一部分。

作者介绍:

Elad Hazan是普林斯顿大学计算机科学教授。他于2015年从Technion毕业,当时他是该校运筹学副教授。他的研究重点是机器学习和优化的基本问题的算法设计和分析。他的贡献包括合作开发用于训练学习机器的AdaGrad算法,以及第一个用于凸优化的次线性时间算法。他曾(两次)获得2012年IBM Goldberg最佳论文奖,以表彰他对机器学习的次线性时间算法的贡献。2008年,他还获得了欧洲研究理事会(European Research Council)的一笔拨款、玛丽•居里(Marie Curie)奖学金和谷歌研究奖(两次)。他是计算学习协会的指导委员会成员,并担任COLT 2015的项目主席。

https://www.cs.princeton.edu/~ehazan/

成为VIP会员查看完整内容
0
122

【导读】分布式机器学习Distributed Machine Learning是学术界和工业界关注的焦点。最近来自荷兰的几位研究人员撰写了关于分布式机器学习的综述,共33页pdf和172篇文献,概述了分布式机器学习相对于传统(集中式)机器学习的挑战和机遇,讨论了用于分布式机器学习的技术,并对可用的系统进行了概述,从而全面概述了该领域的最新进展

​论文地址: https://www.zhuanzhi.ai/paper/161029da3ed8b6027a1199c026df7d07

摘要 在过去的十年里,对人工智能的需求显著增长,而机器学习技术的进步和利用硬件加速的能力推动了这种增长。然而,为了提高预测的质量并使机器学习解决方案在更复杂的应用中可行,需要大量的训练数据。虽然小的机器学习模型可以用少量的数据进行训练,但训练大模型(如神经网络)的输入随着参数的数量呈指数增长。由于处理训练数据的需求已经超过了计算机器计算能力的增长,因此需要将机器学习的工作负载分布到多台机器上,并将集中式的学习任务转换为分布式系统。这些分布式系统提出了新的挑战,首先是训练过程的有效并行化和一致模型的创建。本文概述了分布式机器学习相对于传统(集中式)机器学习的挑战和机遇,讨论了用于分布式机器学习的技术,并对可用的系统进行了概述,从而全面概述了该领域的最新进展。

1. 引言

近年来,新技术的快速发展导致了数据采集的空前增长。机器学习(ML)算法正越来越多地用于分析数据集和构建决策系统,因为问题的复杂性,算法解决方案是不可行的。例如控制自动驾驶汽车[23],识别语音[8],或者预测消费者行为[82]。

在某些情况下,训练模型的长时间运行会引导解决方案设计者使用分布式系统来增加并行性和I/O带宽总量,因为复杂应用程序所需的训练数据很容易达到tb级的[29]。在其他情况下,当数据本身就是分布式的,或者数据太大而不能存储在一台机器上时,集中式解决方案甚至都不是一个选项。例如,大型企业对存储在不同位置的[19]的数据进行事务处理,或者对大到无法移动和集中的天文数据进行事务处理[125]。

为了使这些类型的数据集可作为机器学习问题的训练数据,必须选择和实现能够并行计算、数据分布和故障恢复能力的算法。在这一领域进行了丰富多样的研究生态系统,我们将在本文中对其进行分类和讨论。与之前关于分布式机器学习([120][124])或相关领域的调查([153][87][122][171][144])相比,我们对该问题应用了一个整体的观点,并从分布式系统的角度讨论了最先进的机器学习的实践方面。

第2节深入讨论了机器学习的系统挑战,以及如何采用高性能计算(HPC)的思想来加速和提高可扩展性。第3节描述了分布式机器学习的参考体系结构,涵盖了从算法到网络通信模式的整个堆栈,这些模式可用于在各个节点之间交换状态。第4节介绍了最广泛使用的系统和库的生态系统及其底层设计。最后,第5节讨论了分布式机器学习的主要挑战

2. 机器学习——高性能计算的挑战?

近年来,机器学习技术在越来越复杂的应用中得到了广泛应用。虽然出现了各种相互竞争的方法和算法,但所使用的数据表示在结构上惊人地相似。机器学习工作负载中的大多数计算都是关于向量、矩阵或张量的基本转换——这是线性代数中众所周知的问题。优化这些操作的需求是高性能计算社区数十年来一个非常活跃的研究领域。因此,一些来自HPC社区的技术和库(如BLAS[89]或MPI[62])已经被机器学习社区成功地采用并集成到系统中。与此同时,HPC社区已经发现机器学习是一种新兴的高价值工作负载,并开始将HPC方法应用于它们。Coates等人,[38]能够在短短三天内,在他们的商用现货高性能计算(COTS HPC)系统上训练出一个10亿个参数网络。You等人[166]在Intel的Knights Landing(一种为高性能计算应用而设计的芯片)上优化了神经网络的训练。Kurth等人[84]证明了像提取天气模式这样的深度学习问题如何在大型并行高性能计算系统上进行优化和快速扩展。Yan等人[163]利用借鉴于HPC的轻量级概要分析等技术对工作负载需求进行建模,解决了在云计算基础设施上调度深度神经网络应用程序的挑战。Li等人[91]研究了深度神经网络在加速器上运行时对硬件错误的弹性特性,加速器通常部署在主要的高性能计算系统中。

与其他大规模计算挑战一样,加速工作负载有两种基本的、互补的方法:向单个机器添加更多资源(垂直扩展或向上扩展)和向系统添加更多节点(水平扩展或向外扩展)。

3. 一个分布式机器学习的参考架构

avatar

图1 机器学习的概述。在训练阶段,利用训练数据和调整超参数对ML模型进行优化。然后利用训练后的模型对输入系统的新数据进行预测。

avatar

图2 分布式机器学习中的并行性。数据并行性在di上训练同一个模型的多个实例!模型并行性将单个模型的并行路径分布到多个节点。

机器学习算法

机器学习算法学习根据数据做出决策或预测。我们根据以下三个特征对当前的ML算法进行了分类:

反馈、在学习过程中给算法的反馈类型

目的、期望的算法最终结果

方法、给出反馈时模型演化的本质

反馈 训练算法需要反馈,这样才能逐步提高模型的质量。反馈有几种不同类型[165]:

包括 监督学习、无监督学习、半监督学习与强化学习

目的 机器学习算法可用于各种各样的目的,如对图像进行分类或预测事件的概率。它们通常用于以下任务[85]: 异常检测、分类、聚类、降维、表示学习、回归

每一个有效的ML算法都需要一种方法来迫使算法根据新的输入数据进行改进,从而提高其准确性。通过算法的学习方式,我们识别出了不同的ML方法组: 演化算法、随机梯度下降、支持向量机、感知器、神经网络、规则机器学习、主题模型、矩阵分解。

avatar

图3所示:基于分布程度的分布式机器学习拓扑

4. 分布式机器学习生态系统

avatar

图4所示。分布式机器学习生态系统。通用分布式框架和单机ML系统和库都在向分布式机器学习靠拢。云是ML的一种新的交付模型。

5 结论和当前的挑战

分布式机器学习是一个蓬勃发展的生态系统,它在体系结构、算法、性能和效率方面都有各种各样的解决方案。为了使分布式机器学习在第一时间成为可行的,必须克服一些基本的挑战,例如,建立一种机制,使数据处理并行化,同时将结果组合成一个单一的一致模型。现在有工业级系统,针对日益增长的欲望与机器学习解决更复杂的问题,分布式机器学习越来越普遍和单机解决方案例外,类似于数据处理一般发展在过去的十年。然而,对于分布式机器学习的长期成功来说,仍然存在许多挑战:性能、容错、隐私、可移植性等。

成为VIP会员查看完整内容
A Survey on Distributed Machine Learning.pdf
0
57
小贴士
相关论文
Weijie Zhao,Deping Xie,Ronglai Jia,Yulei Qian,Ruiquan Ding,Mingming Sun,Ping Li
5+阅读 · 2020年3月12日
Talking-Heads Attention
Noam Shazeer,Zhenzhong Lan,Youlong Cheng,Nan Ding,Le Hou
12+阅读 · 2020年3月5日
Afshin Sadeghi,Damien Graux,Jens Lehmann
4+阅读 · 2019年5月29日
Discovery and recognition of motion primitives in human activities
Marta Sanzari,Valsamis Ntouskos,Fiora Pirri
4+阅读 · 2019年2月4日
Joaquin Vanschoren
109+阅读 · 2018年10月8日
Alexander Terenin,Måns Magnusson,Leif Jonsson,David Draper
3+阅读 · 2018年4月23日
Badri Patro,Vinay P. Namboodir
6+阅读 · 2018年4月1日
Unnat Jain,Svetlana Lazebnik,Alexander Schwing
8+阅读 · 2018年3月29日
Danna Gurari,Qing Li,Abigale J. Stangl,Anhong Guo,Chi Lin,Kristen Grauman,Jiebo Luo,Jeffrey P. Bigham
9+阅读 · 2018年2月22日
Armand Joulin,Edouard Grave,Piotr Bojanowski,Maximilian Nickel,Tomas Mikolov
3+阅读 · 2017年10月30日
Top