本课程(以及本教材)的目标是为最广泛使用的学习架构展示学习理论的旧成果和新成果。本课程面向的是理论导向型的学生,以及那些想要获得基本数学理解的学生,这些学生在机器学习和相关领域中使用了大量的学习方法,如计算机视觉或自然语言处理。为了证明从第一性原理得出的许多结果,将作出特别的努力,同时使阐明尽可能简单。这将自然导致选择的关键结果,在简单但相关的实例中展示学习理论的重要概念。在没有证明的情况下,也将给出一些一般的结果。当然,第一性原理的概念是主观的,我将假定有良好的线性代数、概率论和微分的知识。

https://www.di.ens.fr/~fbach/learning_theory_class/index.html

目录内容:

无线数据学习 Learning with infinite data (population setting) -Decision theory (loss, risk, optimal predictors) -Decomposition of excess risk into approximation and estimation errors -No free lunch theorems -Basic notions of concentration inequalities (MacDiarmid, Hoeffding, Bernstein) 线性最小二乘回归 Liner Least-squares regression -Guarantees in the fixed design settings (simple in closed-form) -Ridge regression: dimension independent bounds -Guarantees in the random design settings -Lower bound of performance 经验风险最小化 Empirical risk minimization -Convexification of the risk -Risk decomposition -Estimation error: finite number of hypotheses and covering numbers -Rademacher complexity -Penalized problems 机器学习的优化 Optimization for machine learning -Gradient descent -Stochastic gradient descent -Generalization bounds through stochastic gradient descent 局部平均技术 Local averaging techniques -Partition estimators -Nadaraya-Watson estimators -K-nearest-neighbors -Universal consistency 核方法 Kernel methods -Kernels and representer theorems -Algorithms -Analysis of well-specified models -Sharp analysis of ridge regression -Universal consistency 模型选择 Model selection -L0 penalty -L1 penalty -High-dimensional estimation 神经网络 Neural networks -Single hidden layer neural networks

  • Estimation error
  • Approximation properties and universality 特别主题 Special topics -Generalization/optimization properties of infinitely wide neural networks -Double descent
成为VIP会员查看完整内容
0
44

相关内容

强化学习是一种学习范式,它关注于如何学习控制一个系统,从而最大化表达一个长期目标的数值性能度量。强化学习与监督学习的区别在于,对于学习者的预测,只向学习者提供部分反馈。此外,预测还可能通过影响被控系统的未来状态而产生长期影响。因此,时间起着特殊的作用。强化学习的目标是开发高效的学习算法,以及了解算法的优点和局限性。强化学习具有广泛的实际应用价值,从人工智能到运筹学或控制工程等领域。在这本书中,我们重点关注那些基于强大的动态规划理论的强化学习算法。我们给出了一个相当全面的学习问题目录,描述了核心思想,关注大量的最新算法,然后讨论了它们的理论性质和局限性。

Preface ix Acknowledgments xiii Markov Decision Processes 1 Value Prediction Problems 11 Control 37 For Further Exploration 63 Further reading 63 Applications 63 Software 64 Appendix: The Theory of Discounted Markovian Decision Processes 65 A.1 Contractions and Banach’s fixed-point theorem 65 A.2 Application to MDPs 69 Bibliography 73 Author's Biography 89

成为VIP会员查看完整内容
0
36

这门课的目的是为最广泛使用的学习架构阐述学习理论的最新结果。本课程面向以理论为导向的学生,以及那些想要对整个硕士课程中使用的算法有基本数学理解的学生。

我们将特别从第一性原理证明许多结果,同时保持阐述尽可能简单。这将自然地导致一个关键结果的选择,以简单但相关的实例来展示学习理论中的重要概念。在没有证明的情况下,也将给出一些一般的结果。

本课程分为9节,每节3小时,除了最后一节专门介绍最近的学习理论成果外,每节都有一个精确的主题。见下面的暂定时间表。

目录内容:

  1. 无线数据学习 Learning with infinite data (population setting)
  • Decision theory (loss, risk, optimal predictors)
  • Decomposition of excess risk into approximation and estimation errors
  • No free lunch theorems
  • Basic notions of concentration inequalities (MacDiarmid, Hoeffding, Bernstein)
  1. 线性最小二乘回归 Linear least-squares regression
  • Guarantees in the fixed design settings (simple in closed form)
  • Guarantees in the random design settings
  • Ridge regression: dimension independent bounds
  1. 经典风险分解 Classical risk decomposition
  • Approximation error
  • Convex surrogates
  • Estimation error through covering numbers (basic example of ellipsoids)
  • Modern tools (no proof): Rademacher complexity, Gaussian complexity (+ Slepian/Lipschitz)
  • Minimax rates (at least one proof)
  1. 机器学习优化 Optimization for machine learning
  • Gradient descent
  • Stochastic gradient descent
  • Generalization bounds through stochastic gradient descent
  1. 局部平均技术 Local averaging techniques
  • Kernel density estimation
  • Nadaraya-Watson estimators (simplest proof to be found with apparent curse of dimensionality)
  • K-nearest-neighbors
  • Decision trees and associated methods
  1. 核方法 Kernel methods
  • Modern analysis of non-parametric techniques (simplest proof with results depending on s and d
  1. 模型选择 Model selection
  • L0 penalty with AIC
  • L1 penalty
  • High-dimensional estimation
  1. 神经方法 Neural networks
  • Approximation properties (simplest approximation result)
  • Two layers
  • Deep networks
  1. 特别话题 Special topics
  • Generalization/optimization properties of infinitely wide neural networks
  • Double descent
成为VIP会员查看完整内容
0
31

这份手册最大的特点就是包含许多关于机器学习的经典公式和图表,有助于您快速回忆有关机器学习的知识点。非常适合那些正在准备与机器学习相关的工作面试的人。

项目地址: https://github.com/soulmachine/machine-learning-cheat-sheet

该手册虽然只有 135 页,但麻雀虽小五脏俱全,包含了 28 个主题内容,目录如下:

  • Introduction
  • Probability
  • Generative models for discrete data
  • Gaussian Models
  • Bayesian statistics
  • Frequentist statistics
  • Linear Regression
  • Logistic Regression
  • Generalized linear models and the exponential family
  • Directed graphical models(Bayes nets)
  • Mixture models and the EM algorithm
  • Latent linear models
  • Sparse linear models
  • Kernels
  • Gaussian processes
  • Adaptive basis function models
  • Hidden markov Model
  • State space models
  • Undirected graphical models(Markov random fields)
  • Exact inference for graphical models
  • Variational inference
  • More variational inference
  • Monte Carlo inference
  • Markov chain Monte Carlo (MCMC)inference
  • Clustering
  • Graphical model structure learning
  • Latent variable models for discrete data
  • Deep learning
成为VIP会员查看完整内容
0
42

为土木工程专业的学生和专业人士介绍概率机器学习的关键概念和技术;有许多循序渐进的例子、插图和练习。

这本书向土木工程的学生和专业人员介绍了概率机器学习的概念,以一种对没有统计学或计算机科学专业背景的读者可访问的方式提出了关键的方法和技术。通过一步步的例子、插图和练习,它清晰而直接地展示了不同的方法。掌握了材料,读者将能够理解更高级的机器学习文献,从这本书中提取。

本书介绍了概率机器学习的三个子领域的关键方法:监督学习、非监督学习和强化学习。它首先涵盖了理解机器学习所需的背景知识,包括线性代数和概率论。接着介绍了有监督和无监督学习方法背后的贝叶斯估计,以及马尔可夫链蒙特卡洛方法,该方法使贝叶斯估计能够在某些复杂情况下进行。这本书接着涵盖了与监督学习相关的方法,包括回归方法和分类方法,以及与非监督学习相关的概念,包括聚类、降维、贝叶斯网络、状态空间模型和模型校准。最后,本书介绍了不确定环境下理性决策的基本概念,以及不确定和序列上下文下理性决策的基本概念。在此基础上,这本书描述了强化学习的基础,虚拟代理学习如何通过试验和错误作出最优决策,而与它的环境交互。

目录内容: Chapter 1: 引言 Introduction Part one: 背景 Background
Chapter 2: 线性代数 Chapter 3: 概率理论 Probability Theory Chapter 4: 概率分布 Probability Distributions Chapter 5: 凸优化 Convex Optimization Part two: 贝叶斯估计 Bayesian Estimation Chapter 6: 从数据中学习 Learning from Data Chapter 7: 马尔科夫链蒙特卡洛 Markov Chain Monte Carlo
Part three: 监督学习 Supervised Learning Chapter 8: 回归 Regression Chapter 9: 分类 Classification Part four: 无监督学习 Unsupervised Learning Chapter 10: 聚类 Clustering Chapter 11: 贝叶斯网络 Bayesian Networks Chapter 12: 状态空间 State-Space Models Chapter 13: 模型 Model Calibration Part five: 强化学习 Reinforcement Learning Chapter 14: 不确定上下文决策 Decision in Uncertain Contexts Chapter 15: 序列决策 Sequential Decisions

成为VIP会员查看完整内容
0
47

凸优化研究在凸集上最小化凸函数的问题。凸性,连同它的许多含义,已经被用来为许多类凸程序提出有效的算法。因此,凸优化已经广泛地影响了科学和工程的几个学科。

过去几年,凸优化算法彻底改变了离散和连续优化问题的算法设计。对于图的最大流、二部图的最大匹配和子模函数最小化等问题,已知的最快算法涉及到对凸优化算法的基本和重要使用,如梯度下降、镜像下降、内点方法和切割平面方法。令人惊讶的是,凸优化算法也被用于设计离散对象(如拟阵)的计数问题。同时,凸优化算法已经成为许多现代机器学习应用的中心。由于输入实例越来越大、越来越复杂,对凸优化算法的需求也极大地推动了凸优化技术本身的发展。

这本书的目的是使读者能够获得对凸优化算法的深入理解。重点是从第一性原理推导出凸优化的关键算法,并根据输入长度建立精确的运行时间界限。由于这些方法的广泛适用性,一本书不可能向所有人展示这些方法的应用。这本书展示了各种离散优化和计数问题的快速算法的应用。本书中所选的应用程序的目的是为了说明连续优化和离散优化之间的一个相当令人惊讶的桥梁。

目标受众包括高级本科生、研究生和理论计算机科学、离散优化和机器学习方面的研究人员。

https://convex-optimization.github.io/

第一章-连续优化和离散优化的衔接

我们提出了连续优化和离散优化之间的相互作用。最大流问题是一个激励人心的例子。我们也追溯了线性规划的历史——从椭球法到现代内点法。最后介绍了椭球法在求解最大熵问题等一般凸规划问题上的一些最新成果。

第二章 预备知识

我们复习这本书所需的数学基础知识。这些内容包括多元微积分、线性代数、几何、拓扑、动力系统和图论中的一些标准概念和事实。

第三章-凸性

我们引入凸集,凸性的概念,并展示了伴随凸性而来的能力:凸集具有分离超平面,子梯度存在,凸函数的局部最优解是全局最优解。

第四章-凸优化与效率

我们提出了凸优化的概念,并正式讨论了它意味着什么,有效地解决一个凸程序作为一个函数的表示长度的输入和期望的精度。

第五章-对偶性与最优性

我们引入拉格朗日对偶性的概念,并证明在一个称为Slater条件的温和条件下,强拉格朗日对偶性是成立的。随后,我们介绍了拉格朗日对偶和优化方法中经常出现的Legendre-Fenchel对偶。最后,给出了Kahn-Karush-Tucker(KKT)最优性条件及其与强对偶性的关系。

第六章-梯度下降

我们首先介绍梯度下降法,并说明如何将其视为最陡下降。然后,我们证明了梯度下降法在函数的梯度是连续的情况下具有收敛时间界。最后,我们使用梯度下降法提出了一个快速算法的离散优化问题:计算最大流量无向图。

第七章-镜像下降和乘法权值更新

我们推出我们的凸优化的第二个算法-称为镜面下降法-通过正则化观点。首先,提出了基于概率单纯形的凸函数优化算法。随后,我们展示了如何推广它,重要的是,从它推导出乘法权值更新(MWU)方法。然后利用后一种算法开发了一个快速的近似算法来解决图上的二部图匹配问题。

第八章-加速梯度下降

提出了Nesterov的加速梯度下降算法。该算法可以看作是前面介绍的梯度下降法和镜像下降法的混合。我们还提出了一个应用加速梯度法求解线性方程组。

第九章-牛顿法

IWe开始了设计凸优化算法的旅程,其迭代次数与误差成对数关系。作为第一步,我们推导并分析了经典的牛顿方法,这是一个二阶方法的例子。我们认为牛顿方法可以被看作是黎曼流形上的最速下降,然后对其收敛性进行仿射不变分析。

第十章 线性规划的内点法

利用牛顿法及其收敛性,推导出一个线性规划的多项式时间算法。该算法的关键是利用障碍函数的概念和相应的中心路径,将有约束优化问题简化为无约束优化问题。

第十一章-内点法的变种与自洽

给出了线性规划中路径遵循IPM的各种推广。作为应用,我们推导了求解s-t最小代价流问题的快速算法。随后,我们引入了自一致性的概念,并给出了多边形和更一般凸集的障碍函数的概述。

第十二章 线性规划的椭球法

介绍了凸优化的一类切割平面方法,并分析了一种特殊情况,即椭球体法。然后,我们展示了如何使用这个椭球方法来解决线性程序超过0-1多边形时,我们只能访问一个分离oracle的多边形。

第十三章-凸优化的椭球法

我们展示了如何适应椭球法求解一般凸程序。作为应用,我们提出了子模函数最小化的多项式时间算法和计算组合多边形上的最大熵分布的多项式时间算法。

成为VIP会员查看完整内容
0
86

【导读】UC.Berkeley CS189 《Introduction to Machine Learning》是面向初学者的机器学习课程在本指南中,我们创建了一个全面的课程指南,以便与学生和公众分享我们的知识,并希望吸引其他大学的学生对伯克利的机器学习课程感兴趣。

讲义目录:

  • Note 1: Introduction

  • Note 2: Linear Regression

  • Note 3: Features, Hyperparameters, Validation

  • Note 4: MLE and MAP for Regression (Part I)

  • Note 5: Bias-Variance Tradeoff

  • Note 6: Multivariate Gaussians

  • Note 7: MLE and MAP for Regression (Part II)

  • Note 8: Kernels, Kernel Ridge Regression

  • Note 9: Total Least Squares

  • Note 10: Principal Component Analysis (PCA)

  • Note 11: Canonical Correlation Analysis (CCA)

  • Note 12: Nonlinear Least Squares, Optimization

  • Note 13: Gradient Descent Extensions

  • Note 14: Neural Networks

  • Note 15: Training Neural Networks

  • Note 16: Discriminative vs. Generative Classification, LS-SVM

  • Note 17: Logistic Regression

  • Note 18: Gaussian Discriminant Analysis

  • Note 19: Expectation-Maximization (EM) Algorithm, k-means Clustering

  • Note 20: Support Vector Machines (SVM)

  • Note 21: Generalization and Stability

  • Note 22: Duality

  • Note 23: Nearest Neighbor Classification

  • Note 24: Sparsity

  • Note 25: Decision Trees and Random Forests

  • Note 26: Boosting

  • Note 27: Convolutional Neural Networks (CNN)

讨论目录:

  • Discussion 0: Vector Calculus, Linear Algebra (solution)

  • Discussion 1: Optimization, Least Squares, and Convexity (solution)

  • Discussion 2: Ridge Regression and Multivariate Gaussians (solution)

  • Discussion 3: Multivariate Gaussians and Kernels (solution)

  • Discussion 4: Principal Component Analysis (solution)

  • Discussion 5: Least Squares and Kernels (solution)

  • Discussion 6: Optimization and Reviewing Linear Methods (solution)

  • Discussion 7: Backpropagation and Computation Graphs (solution)

  • Discussion 8: QDA and Logistic Regression (solution)

  • Discussion 9: EM (solution)

  • Discussion 10: SVMs and KNN (solution)

  • Discussion 11: Decision Trees (solution)

  • Discussion 12: LASSO, Sparsity, Feature Selection, Auto-ML (solution)

讲义下载链接:https://pan.baidu.com/s/19Zmws53BUzjSvaDMEiUhqQ 密码:u2xs

成为VIP会员查看完整内容
0
96
小贴士
相关VIP内容
专知会员服务
33+阅读 · 2020年12月18日
专知会员服务
31+阅读 · 2020年12月14日
专知会员服务
42+阅读 · 2020年11月20日
专知会员服务
47+阅读 · 2020年11月12日
专知会员服务
86+阅读 · 2020年9月1日
专知会员服务
81+阅读 · 2020年6月27日
专知会员服务
96+阅读 · 2020年1月16日
【新书】Python编程基础,669页pdf
专知会员服务
88+阅读 · 2019年10月10日
相关论文
Yair Schiff,Brian Quanz,Payel Das,Pin-Yu Chen
0+阅读 · 4月8日
Soudeep Deb,Rishideep Roy,Shubhabrata Das
0+阅读 · 4月7日
Kristian Fossum,Sergey Alyaev,Jan Tveranger,Ahmed Elsheikh
0+阅读 · 4月6日
Bingxin Zhou,Junbin Gao,Minh-Ngoc Tran,Richard Gerlach
0+阅读 · 4月6日
Aleksandr Beknazaryan
0+阅读 · 4月5日
Samir Chowdhury,David Miller,Tom Needham
0+阅读 · 4月5日
Peter L. Bartlett,Andrea Montanari,Alexander Rakhlin
12+阅读 · 3月16日
Disentangled Information Bottleneck
Ziqi Pan,Li Niu,Jianfu Zhang,Liqing Zhang
8+阅读 · 2020年12月22日
Eugene A. Golikov
5+阅读 · 2020年12月10日
Tao Yang,Shikai Fang,Shibo Li,Yulan Wang,Qingyao Ai
5+阅读 · 2020年8月20日
Top