大量大维度数据是现代机器学习(ML)的默认设置。标准的ML算法,从支持向量机这样的内核方法和基于图的方法(如PageRank算法)开始,最初的设计是基于小维度的,在处理真实世界的大数据集时,即使不是完全崩溃的话,往往会表现失常。随机矩阵理论最近提出了一系列广泛的工具来帮助理解这种新的维数诅咒,帮助修复或完全重建次优算法,最重要的是提供了处理现代数据挖掘的新方向。本编著的主要目的是提供这些直觉,通过提供一个最近的理论和应用突破的随机矩阵理论到机器学习摘要。针对广泛的受众,从对统计学习感兴趣的本科生到人工智能工程师和研究人员,这本书的数学先决条件是最小的(概率论、线性代数和真实和复杂分析的基础是足够的):与随机矩阵理论和大维度统计的数学文献中的介绍性书籍不同,这里的理论重点仅限于机器学习应用的基本要求。这些应用范围从检测、统计推断和估计,到基于图和核的监督、半监督和非监督分类,以及神经网络: 为此,本文提供了对算法性能的精确理论预测(在不采用随机矩阵分析时往往难以实现)、大维度的洞察力、改进方法,以及对这些方法广泛适用于真实数据的基本论证。该专著中提出的大多数方法、算法和图形都是用MATLAB和Python编写的,读者可以查阅(https://github.com/Zhenyu-LIAO/RMT4ML)。本专著也包含一系列练习两种类型:短的练习与修正附加到书的最后让读者熟悉随机矩阵的基本理论概念和工具分析,以及长期指导练习应用这些工具进一步具体的机器学习应用程序。

https://zhenyu-liao.github.io/book/

成为VIP会员查看完整内容
0
55

相关内容

“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。” ——中文维基百科

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

https://www.worldscientific.com/page/pressroom/2018-07-31-01

这本书提供了一个机器学习和数据挖掘领域的数学分析。典型的计算机科学数学课程的数学分析部分省略了这些非常重要的思想和技术,这些思想和技术对于机器学习的专门领域是不可缺少的,以优化为中心,如支持向量机,神经网络,各种类型的回归,特征选择和聚类。本书适用于研究者和研究生,他们将从书中讨论的这些应用领域获益。

数学分析可以被松散地描述为数学的一个领域,其主要对象是研究函数及其关于极限的行为。术语“函数”指的是实参数实函数的广义集合,包括函数、运算符、测度等。在数学分析中,有几个发展良好的领域对机器学习产生了特殊的兴趣:拓扑(具有不同的风格:点集拓扑、组合拓扑和代数拓扑),赋范和内积空间的泛函分析(包括巴拿赫和希尔伯特空间),凸分析,优化,等等。此外,像测量和集成理论这样的学科在统计学中发挥着至关重要的作用,这是机器学习的另一个支柱,在计算机科学家的教育中缺乏。我们的目标是为缩小这一差距做出贡献,这是对研究感兴趣的人的一个严重障碍。机器学习和数据挖掘文献非常广泛,包括各种各样的方法,从非正式的到复杂的数学展示。然而,接近研究主题所需要的必要的数学背景通常以一种简洁和无动机的方式呈现,或者干脆就不存在。本卷机器学习的通常介绍,并提供(通过其应用章节,讨论优化,迭代算法,神经网络,回归,和支持向量机)的数学方面的研究。

成为VIP会员查看完整内容
0
93

《量子信息理论》这本书基本上是自成体系的,主要关注构成这门学科基础的基本事实的精确数学公式和证明。它是为研究生和研究人员在数学,计算机科学,理论物理学寻求发展一个全面的理解关键结果,证明技术,和方法,与量子信息和计算理论的广泛研究主题相关。本书对基础数学,包括线性代数,数学分析和概率论有一定的理解。第一章总结了这些必要的数学先决条件,并从这个基础开始,这本书包括清晰和完整的证明它提出的所有结果。接下来的每一章都包含了具有挑战性的练习,旨在帮助读者发展自己的技能,发现关于量子信息理论的证明。

这是一本关于量子信息的数学理论的书,专注于定义、定理和证明的正式介绍。它主要是为对量子信息和计算有一定了解的研究生和研究人员准备的,比如将在本科生或研究生的入门课程中涵盖,或在目前存在的关于该主题的几本书中的一本中。量子信息科学近年来有了爆炸性的发展,特别是在过去的二十年里。对这个问题的全面处理,即使局限于理论方面,也肯定需要一系列的书,而不仅仅是一本书。与这一事实相一致的是,本文所涉及的主题的选择并不打算完全代表该主题。量子纠错和容错,量子算法和复杂性理论,量子密码学,和拓扑量子计算是在量子信息科学的理论分支中发现的许多有趣的和基本的主题,在这本书中没有涵盖。然而,当学习这些主题时,人们很可能会遇到本书中讨论的一些核心数学概念。

https://www.cambridge.org/core/books/theory-of-quantum-information/AE4AA5638F808D2CFEB070C55431D897#fndtn-information

成为VIP会员查看完整内容
0
49

近年来,随机矩阵理论(RMT)已经成为学习理论的前沿,作为一种工具来理解它的一些最重要的挑战。从深度学习模型的泛化到优化算法的精确分析,RMT提供了易于分析的模型。

第一部分:介绍和经典随机矩阵理论集合

本节介绍两个经典的随机矩阵理论集合,高斯正交集合和Wishart矩阵。通过数值实验,我们将介绍随机矩阵理论中一些最重要的分布,如半圆和马尔钦科-帕斯图,以及一些关键的概念,如通用性。 图片

第2部分:随机矩阵理论概论:斯蒂尔吉斯和R变换 本节介绍随机矩阵理论中的一些核心证明技术: Stieltjes和R变换。

第3部分:数值算法分析 本节主要介绍随机矩阵理论在数值算法分析中的应用。

第4部分:为什么深度学习有效? 本节讨论深度神经网络泛化的随机矩阵理论模型。

https://random-matrix-learning.github.io/#presentation1

成为VIP会员查看完整内容
0
46

机器学习中复杂的统计数据让许多开发人员感到担忧。了解统计学可以帮助你建立强大的机器学习模型,针对给定的问题陈述进行优化。这本书将教你所有需要执行复杂的统计计算所需的机器学习。您将获得有关监督学习、非监督学习、强化学习等统计信息。了解真实世界的例子,讨论机器学习的统计方面,并熟悉它。您还将设计用于执行诸如模型、参数拟合、回归、分类、密度收集等任务的程序。

到本书结束时,你将掌握机器学习所需的统计数据,并能够将你的新技能应用于任何类型的行业问题。

成为VIP会员查看完整内容
0
51

将机器学习(ML)和深度学习(DL)结合在金融交易中,重点放在投资管理上。这本书解释了投资组合管理、风险分析和绩效分析的系统方法,包括使用数据科学程序的预测分析。

本书介绍了模式识别和未来价格预测对时间序列分析模型的影响,如自回归综合移动平均模型(ARIMA),季节ARIMA (SARIMA)模型和加性模型,包括最小二乘模型和长期短期记忆(LSTM)模型。运用高斯隐马尔可夫模型提出了隐模式识别和市场状态预测。这本书涵盖了K-Means模型在股票聚类中的实际应用。建立了方差协方差法和模拟法(蒙特卡罗模拟法)在风险值估算中的实际应用。它还包括使用逻辑斯蒂分类器和多层感知器分类器的市场方向分类。最后,本书介绍了投资组合的绩效和风险分析。

到本书结束时,您应该能够解释算法交易如何工作及其在现实世界中的实际应用,并知道如何应用监督和无监督的ML和DL模型来支持投资决策,并实施和优化投资策略和系统。

你将学习:

了解金融市场和算法交易的基本原理,以及适用于系统性投资组合管理的监督和无监督学习模型

了解特征工程、数据可视化、超参数优化等概念

设计、构建和测试有监督和无监督的ML和DL模型

发现季节性、趋势和市场机制,模拟市场变化和投资策略问题,预测市场方向和价格

以卓越的资产类别构建和优化投资组合,并衡量潜在风险

成为VIP会员查看完整内容
0
80

蓝光辉教授的专著系统地介绍了机器学习算法基础概念和近期进展,尤其是基于优化方法的算法。 机器学习算法领域近期出现了大量研发进展,但目前社区尚缺乏对机器学习算法基础概念和近期进展的系统性介绍,尤其是基于随机优化方法、随机算法、非凸优化、分布式与在线学习,以及无投影方法的机器学习算法。

佐治亚理工终身教授蓝光辉出版的一本关于机器学习算法的专著《First-order and Stochastic Optimization Methods for Machine Learning》。

这本专著具备以下特点:

  • 覆盖从基础构造块到精心设计的复杂算法等详实内容;
  • 用教程的形式介绍了机器学习算法领域的近期进展;
  • 面向机器学习、人工智能和数学规划社区的广大研究人员;
  • 每一章节后都附有练习。

系统梳理优化算法的进展

在该书序言部分,蓝光辉教授介绍了写作此书的初衷:

优化在数据科学中一直发挥重要作用。很多统计和机器学习模型的分析与解决方法都依赖于优化。但是,近期社区对计算数据分析优化的兴趣往往伴随着一些难题。高维度、大型数据规模、内在不确定性、无法避免的非凸问题,以及实时和分布式设置的要求,给现有的优化方法带来了大量困难。 在过去十年中,为解决以上挑战,优化算法在设计和分析方面出现了巨大进步。然而,这些进步分散在多个不同学科的大量文献中,缺乏系统性的梳理。而这使得年轻研究人员更难进入优化算法领域,更难构建必要的基础知识、了解目前的前沿成果,以及推动该领域的发展。 这本书尝试用更有条理的方式介绍领域进展,主要聚焦于已得到广泛应用或具备大规模机器学习和数据分析应用潜力的优化算法,包括一阶方法、随机优化方法、随机和分布式方法、非凸随机优化方法、无投影方法,以及算子滑动和分散式方法。 本书的写作目标是介绍基础算法机制,它们能在不同环境设置下提供最优性能保障。不过在探讨算法之前,本书首先简要介绍了多个常见的机器学习模型和一些重要的优化理论,希望借此为初学者提供良好的理论基础。

此外,蓝教授表示这本书的目标读者是对优化算法及其在机器学习和人工智能中的应用感兴趣的研究生和高年级本科生,也可以作为更高阶研究人员的参考书目。这本书的最初版本已经作为佐治亚理工学院高年级本科生和博士课程的教材。

核心内容

这本书共包括八个章节,涵盖机器学习模型、凸优化、非凸优化、无投影方法等内容,是对优化算法近期进展的一次系统性梳理。

书籍链接:https://www.springer.com/gp/book/9783030395674

作者简介

本书作者蓝光辉教授,博士毕业于佐治亚理工学院,目前任教于佐治亚理工 H. Milton Stewart 工业和系统工程学院。此外,他还担任《Computational Optimization and Applications》、优化算法顶级期刊《Mathematical Programming》和《SIAM Journal on Optimization》等杂志的副主编,是国际机器学习和深度学习算法方向的顶级专家。

蓝光辉教授专注于计算机科学领域的基础研究,他的研究方向包括:随机优化和非线性规划的理论、算法和应用,包括随机梯度下降和加速随机梯度下降,以及用于解决随机凸和非凸优化问题。

成为VIP会员查看完整内容
0
39

统计学是关于可观测现象的数学建模,使用随机模型,以及分析数据:估计模型的参数和检验假设。在这些注释中,我们研究了各种评估和测试程序。我们考虑它们的理论性质,并研究各种最优化的概念。

成为VIP会员查看完整内容
0
48

在复杂的以人为中心的系统中,每天的决策都具有决策相关信息不完全的特点。现有决策理论的主要问题是,它们没有能力处理概率和事件不精确的情况。在这本书中,我们描述了一个新的理论的决策与不完全的信息。其目的是将决策分析和经济行为的基础从领域二价逻辑转向领域模糊逻辑和Z约束,从行为决策的外部建模转向组合状态的框架。

这本书将有助于在模糊逻辑,决策科学,人工智能,数学经济学,和计算经济学的专业人员,学者,经理和研究生。

读者:专业人士,学者,管理者和研究生在模糊逻辑,决策科学,人工智能,数学经济学,和计算经济学。

成为VIP会员查看完整内容
0
170

机器学习是计算机科学中增长最快的领域之一,具有深远的应用。本书的目的是介绍机器学习,以及它所提供的算法范例。本书对机器学习的基本原理和将这些原理转化为实际算法的数学推导提供了理论解释。在介绍了基础知识之后,这本书涵盖了以前教科书没有涉及到的一系列广泛的中心主题。这些包括讨论学习的计算复杂性和凸性和稳定性的概念;重要的算法范例包括随机梯度下降、神经网络和结构化输出学习;以及新兴的理论概念,如PAC-Bayes方法和基于压缩的界限。本文面向高级本科生或刚毕业的学生,使统计学、计算机科学、数学和工程学领域的学生和非专业读者都能接触到机器学习的基本原理和算法。

https://www.cse.huji.ac.il/~shais/UnderstandingMachineLearning/index.html

概述

机器学习是指自动检测数据中有意义的模式。在过去的几十年里,它已经成为几乎所有需要从大数据集中提取信息的任务的通用工具。我们被一种基于机器学习的技术包围着:搜索引擎学习如何给我们带来最好的结果(同时投放有利可图的广告),反垃圾邮件软件学习如何过滤我们的电子邮件信息,信用卡交易被一种学习如何侦测欺诈的软件保护着。数码相机学会识别人脸,智能手机上的智能个人辅助应用学会识别语音指令。汽车配备了使用机器学习算法构建的事故预防系统。机器学习还广泛应用于生物信息学、医学和天文学等科学领域。

所有这些应用程序的一个共同特征是,与计算机的更传统使用相比,在这些情况下,由于需要检测的模式的复杂性,人类程序员无法提供关于这些任务应该如何执行的明确、详细的规范。以智慧生物为例,我们的许多技能都是通过学习我们的经验(而不是遵循给我们的明确指示)而获得或改进的。机器学习工具关注的是赋予程序“学习”和适应的能力。

这本书的第一个目标是提供一个严格的,但易于遵循,介绍机器学习的主要概念: 什么是机器学习?

本书的第二个目标是介绍几种关键的机器学习算法。我们选择展示的算法一方面在实践中得到了成功应用,另一方面提供了广泛的不同的学习技术。此外,我们特别关注适合大规模学习的算法(又称“大数据”),因为近年来,我们的世界变得越来越“数字化”,可用于学习的数据量也在急剧增加。因此,在许多应用中数据量大,计算时间是主要瓶颈。因此,我们明确地量化了学习给定概念所需的数据量和计算时间。

目录:

  • Introduction

Part I: Foundations

  • A gentle start
  • A formal learning model
  • Learning via uniform convergence
  • The bias-complexity trade-off
  • The VC-dimension
  • Non-uniform learnability
  • The runtime of learning

Part II: From Theory to Algorithms

  • Linear predictors
  • Boosting
  • Model selection and validation
  • Convex learning problems
  • Regularization and stability
  • Stochastic gradient descent
  • Support vector machines
  • Kernel methods
  • Multiclass, ranking, and complex prediction problems
  • Decision trees
  • Nearest neighbor
  • Neural networks

Part III: Additional Learning Models

  • Online learning
  • Clustering
  • Dimensionality reduction
  • Generative models
  • Feature selection and generation

Part IV: Advanced Theory

  • Rademacher complexities
  • Covering numbers
  • Proof of the fundamental theorem of learning theory
  • Multiclass learnability
  • Compression bounds
  • PAC-Bayes

Appendices

  • Technical lemmas
  • Measure concentration
  • Linear algebra
成为VIP会员查看完整内容
0
163

高斯过程(GPs)为核机器的学习提供了一种有原则的、实用的、概率的方法。在过去的十年中,GPs在机器学习社区中得到了越来越多的关注,这本书提供了GPs在机器学习中理论和实践方面长期需要的系统和统一的处理。该书是全面和独立的,针对研究人员和学生在机器学习和应用统计学。

这本书处理监督学习问题的回归和分类,并包括详细的算法。提出了各种协方差(核)函数,并讨论了它们的性质。从贝叶斯和经典的角度讨论了模型选择。讨论了许多与其他著名技术的联系,包括支持向量机、神经网络、正则化网络、相关向量机等。讨论了包括学习曲线和PAC-Bayesian框架在内的理论问题,并讨论了几种用于大数据集学习的近似方法。这本书包含说明性的例子和练习,和代码和数据集在网上是可得到的。附录提供了数学背景和高斯马尔可夫过程的讨论。

成为VIP会员查看完整内容
0
119
小贴士
相关VIP内容
专知会员服务
49+阅读 · 8月4日
专知会员服务
46+阅读 · 7月24日
专知会员服务
51+阅读 · 7月19日
专知会员服务
80+阅读 · 6月3日
专知会员服务
48+阅读 · 3月25日
专知会员服务
170+阅读 · 2020年6月24日
专知会员服务
119+阅读 · 2020年5月2日
相关论文
Vikraman Choudhury,Marcelo Fiore
0+阅读 · 10月11日
Michael Perlmutter,Jieqian He,Matthew Hirn
0+阅读 · 10月9日
Divyat Mahajan,Shruti Tople,Amit Sharma
0+阅读 · 10月7日
Chen Ma,Liheng Ma,Yingxue Zhang,Ruiming Tang,Xue Liu,Mark Coates
3+阅读 · 1月13日
Optimization for deep learning: theory and algorithms
Ruoyu Sun
80+阅读 · 2019年12月19日
Antoine J. -P. Tixier
10+阅读 · 2018年8月30日
Ryo Takahashi,Ran Tian,Kentaro Inui
3+阅读 · 2018年5月24日
Top