本课程的目标(以及本教材的目标)是为最广泛使用的学习架构介绍学习理论的新旧结果。本课程面向以理论为导向的学生,以及希望对机器学习和相关领域(如计算机视觉或自然语言处理等学习方法的大量用户)中使用的算法有基本数学理解的学生。我们将特别努力去证明许多来自第一性原理的结果,同时保持阐述尽可能简单。这将自然地导致一个关键结果的选择,以简单但相关的实例展示学习理论中的重要概念。一些一般的结果也将在没有证明的情况下给出。当然,第一性原理的概念是主观的,我将假定你对线性代数、概率论和微积分有很好的了解。此外,我将重点关注在实践中可以运行的算法之外不存在的学习理论部分,因此本书中描述的所有算法框架都是常规使用的。对于大多数学习方法,一些简单的说明性实验被提出,并计划有伴随的代码(Matlab, Julia和Python),这样学生就可以自己看到算法是简单和有效的综合实验。

https://www.di.ens.fr/~fbach/

成为VIP会员查看完整内容
0
40

相关内容

新版《概率论》第三版经过了彻底的修订和扩充,在一本书中对现代概率进行了全面的阐述。它是一个真正的现代阐述版,不仅提供经典的结果,而且材料,将是重要的未来研究。很多已经添加到以前的版本,包括8个全新的章节,随机度量,Malliavin 微积分,多元数组,和随机微分几何。除了重要的改进和修订,一些早期章节已经被完全重写。为了帮助读者,这些材料被分为十个主要领域,每一个领域对于任何严肃的研究生和研究者来说都是必不可少的,无论他们的专业是什么。

每一章很大程度上是独立的,包括大量的练习,使书理想的自学和设计研究生水平的课程和研讨会在不同的领域和不同的水平。广泛的注释和详细的参考书目使它很容易超越所提出的材料,如果需要。

成为VIP会员查看完整内容
0
48

人工智能技术已经成为当前技术变革的主要推动力之一,从计算机科学到工程学等许多科学技术领域都在竭尽全力想用自动化的方法创造更大的价值。要想做到这一点,工程师当然必须要对当前最具潜力的机器学习方法有一个大致了解。伦敦国王学院信息学习教授 Osvaldo Simeone 公开发布了长达 237 页的最新专著,为工程师提供了全面细致的机器学习入门介绍。

本专著的目标是介绍机器学习领域内的关键概念、算法和理论框架,涵盖了监督学习与无监督学习、统计学习理论、概率图模型和近似推断等方向。本专著的目标读者是具有概率学和线性代数背景的电气工程师。本书基于第一原理(first principle)写作,并按照有清晰定义的分类方式对其中的主要思想进行了组织,其中的类别包含鉴别式模型和生成式模型、频率论者和贝叶斯方法、准确推断和近似推断、有向模型和无向模型、凸优化和非凸优化。本书中的数学框架使用了信息论的描述方式,以便工具具有统一性。书中提供了简单且可重复的数值示例,以便读者了解相关的关键动机和结论。本专著的目的并不是要为每个特定类别中已有的大量解决方案提供详尽的细节描述(这些描述读者可参阅教科书和论文了解),而是为了给工程师提供一个切入点,以便他们能借此进一步深入机器学习相关文献。

第一章 概述

当我在教授机器学习课程时,有着工程学背景的同事和学生经常问及:如何更好地入门机器学习。我通常会以书籍推荐的形式回应——一般但稍微过时的介绍,请读这本书;对于基于概率模型方法的详细调查,请查看这些索引;如果想要了解统计学习,我觉得这篇文章很有用;如此等等。结果证明这些回答无法使我与提问者满意。书籍很多很厚,使得繁忙的工程学教授和学生望而却步。因此我首次撰写了这篇专论,一篇基础且体量适当的入门书,其中通过简单的术语面向工程师统一介绍了机器学习主要思想和原理,同时涵盖了其最新发展和文献指导,以供进一步研究。

第二章,线性回归入门介绍

第二章我们回顾了三个核心的学习框架,即频率论者(frequentist)、贝叶斯和 MDL。频率论者为数据假定了真实、未知分布的存在,并致力于学习一个预测器(predictor),从而更好地泛化来自这一分布的不可见数据。这可通过学习一个插入最优预测器表达式的概率模型或者直接解决预测变量上的 ERM 问题而完成。贝叶斯方法输出一个预测分布,可通过解决计算不可见标签上后验分布的推断问题而整合先验信息与数据。最后,MDL 方法旨在筛选一个模型,允许使用最少的比特描述数据,因此去除在未观察实例上泛化的任务。本章也广泛讨论了过拟合的关键问题,展示了学习算法的性能可就偏差和评估错误获得理解。运行实例是用于高斯模型的线形回归中的一个。下一章将会介绍更多学习构建和学习常见概率模型的工具。

第三章,概率学习模型

本章中,我们回顾了概率模型的一个重要类别——指数族,它被广泛用作学习算法的组件以完成监督、无监督学习任务。这一类别成员的关键属性是由同一家族中的梯度 LL 和共轭先验的可用性采用的简单形式。下一章我们将讲述指数族在解决分类问题方面的不同应用模型。

第四章,分类

本章扼要概述了分类的关键问题。按照第二章提出的分类系统,我们依据用来连接解释性变量与标签的模型类型划分了学习算法。尤其地,我们描述了线性与非线性的确定性判别模型,涵盖了用于多层神经网络的感知机算法、SVM、反向传播;聚焦于 GLM 的概率判别模型;包括 QDA 和 LDA 在内的概率生成模型。我们同样介绍了混合模型与提升方法(Boosting)。尽管本章聚焦在算法方面,下一章将讨论一个理论框架,研究监督学习的性能。

第五章,统计学习理论

本章描述了经典的 PAC 框架,并用它分析监督学习的泛化性能。我们知道 VC 维理论定义了模型的能力,这就意味着 VC 维在给定模型准确度和置信度上度量了其学习所需要的样本数量。在下一章中,我们将从监督学习进一步讨论无监督学习问题。

第六章,无监督学习

在本章节中,我们回顾了无监督学习的基础知识。优秀的无监督学习方法一般都通过隐变量或潜在变量帮助解释数据的结构。我们首先通过期望最大化算法(EM)回顾了机器学习及各种变体。随后介绍了机器学习生成模型 GAN,该方法使用从数据中学到的散度度量以代替 KL 散度。随后接着回顾了通过 InfoMax 原则训练的判别模型和自编码器。在下一章节中,我们通过讨论概率图模型的强大框架而扩展了对概率模型的理解。

第七章,概率图模型

概率图模型将关于数据结构的先验信息编码为因果关系的形式,即通过有向图和贝叶斯网络(BN),或通过无向图和马尔可夫随机场(MRF)编码为相互之间的依赖性关系。这种结构可以表示为条件独立性属性。概率图模型所编码的结构属性能有效地控制模型的性能,因此能以可能的偏差为代价减少过模型拟合。概率图模型也推动执行贝叶斯推断,至少在树型结构的图中是这样的。下一章将讨论贝叶斯推断和关联学习比较重要的问题,当然具体的方法对计算力的需求就太大了。

第八章,近似推断与学习

本章通过关注 MC 和 VI 方法概览了近似推断技术。并且重点关注了选择不同类型的近似准则及其所产生的影响,例如介绍 M- 和 I- 映射。同样我们还讨论了在学习问题上使用近似推断的方法。此外,我们还讨论了本章目前最优的技术进展。

第九章,结语

这一章节主要是简单介绍机器学习,尤其是强调那些统一框架下的概念。除了前文纵览机器学习的各种方法,我们在这年还提供了那些只是提到或简要描述的重要概念及其扩展方向,因此下面将提供前文没有介绍的重要概念列表。

隐私:在许多应用中,用于训练机器学习算法的数据集包含了很多敏感的私人信息,例如推荐系统中的个人偏好和医疗信息等等。因此确保学习的模型并不会揭露任何训练数据集中的个人记录信息就显得十分重要了。这一约束能使用差分隐私(differential privacy)概念形式化表达。保证个人数据点隐私的典型方法包括在执行 SGD 训练模型时对梯度添加随机噪声,该方法依赖于使用不同的训练数据子集混合所学习到的专家系统 [1]。

鲁棒性:已经有研究者表明不同的机器学习模型包含神经网络对数据集中很小的变化十分敏感,它们会对次要的、正确选择的和解释变量中的变动给出错误的响应。为了确保模型关于对抗样本具有鲁棒性,修正训练过程是具有重要实践意义的研究领域 [37]。

计算平台和编程框架:为了扩展机器学习应用,利用分布式计算架构和相应的标准编程框架 [9] 是十分有必要的。

迁移学习:针对特定任务并使用给定数据集进行训练的机器学习模型,目前如果需要应用到不同的任务还需要重新初始化和训练。迁移学习研究领域即希望将预训练模型从一个任务获得的专业知识迁移到另一个任务中。神经网络的典型解决方案规定了通用隐藏层的存在,即对不同任务训练的神经网络有一些隐藏层是相同的。

域适应(Domain adaptation):在许多学习问题中,可用数据和测试数据的分布并不相同。例如在语音识别中,模型学习时所使用的用户数据和训练后其他用户使用该模型所提供的语音数据是不同的。广义 PAC 理论分析了这种情况,其将测试分布作为测试和训练的分布差异函数而获得了泛化误差边界。

有效通信学习(Communication-efficient learning):在分布式计算平台上,数据通常被分配在处理器中,处理器中的通信造成了延迟与能耗。一个重要的研究问题是找到学习性能与通信成本之间的最佳折衷。

强化学习:强化学习是机器学习方法最近大获成功的根本核心,获得了玩视频游戏或与人类选手对决的必要技能。在强化学习中,一方想要学习世界中已观察到的状态 x 和动作 t 之间的最优映射,比如说 p(t|x, θ)。不同于监督学习,强化学习中最优动作不可知,机器会由于采取的动作而获得一个奖励/惩罚信号。其中一个流行的方法是深度强化学习,它通过神经网络建模映射 p(t|x, θ)。通过使用强化方法评估梯度并借助 SGD,这被训练从而最大化平均奖励。

成为VIP会员查看完整内容
0
54

优化和机器学习的相互作用是现代计算科学最重要的发展之一。优化的公式和方法在设计从大量数据中提取基本知识的算法方面被证明是至关重要的。然而,机器学习并不仅仅是优化技术的消费者,而是一个快速发展的领域,它本身也在产生新的优化思想。这本书以一种对两个领域的研究人员都可访问的方式捕获了优化和机器学习之间交互的艺术的状态。

优化方法因其广泛的适用性和吸引人的理论特性而在机器学习中占有重要地位。当今机器学习模型的复杂性、规模和多样性日益增加,需要对现有假设进行重新评估。这本书开始了重新评估的过程。它描述了在诸如一阶方法,随机近似,凸松弛,内点方法,和近端方法等已建立的框架。它还专门关注一些新的主题,如正则化优化、鲁棒优化、梯度和次梯度方法、分裂技术和二阶方法。其中许多技术的灵感来自其他领域,包括运筹学、理论计算机科学和优化子领域。这本书将丰富机器学习社区和这些其他领域以及更广泛的优化社区之间正在进行的交叉发展。

成为VIP会员查看完整内容
0
54

学习使用Python分析数据和预测结果的更简单和更有效的方法

Python机器学习教程展示了通过关注两个核心机器学习算法家族来成功分析数据,本书能够提供工作机制的完整描述,以及使用特定的、可破解的代码来说明机制的示例。算法用简单的术语解释,没有复杂的数学,并使用Python应用,指导算法选择,数据准备,并在实践中使用训练过的模型。您将学习一套核心的Python编程技术,各种构建预测模型的方法,以及如何测量每个模型的性能,以确保使用正确的模型。关于线性回归和集成方法的章节深入研究了每种算法,你可以使用书中的示例代码来开发你自己的数据分析解决方案。

机器学习算法是数据分析和可视化的核心。在过去,这些方法需要深厚的数学和统计学背景,通常需要结合专门的R编程语言。这本书演示了机器学习可以如何实现使用更广泛的使用和可访问的Python编程语言。

使用线性和集成算法族预测结果

建立可以解决一系列简单和复杂问题的预测模型

使用Python应用核心机器学习算法

直接使用示例代码构建自定义解决方案

机器学习不需要复杂和高度专业化。Python使用了更简单、有效和经过良好测试的方法,使这项技术更容易为更广泛的受众所接受。Python中的机器学习将向您展示如何做到这一点,而不需要广泛的数学或统计背景。

成为VIP会员查看完整内容
0
93

这门课的目的是为最广泛使用的学习架构阐述学习理论的最新结果。本课程面向以理论为导向的学生,以及那些想要对整个硕士课程中使用的算法有基本数学理解的学生。

我们将特别从第一性原理证明许多结果,同时保持阐述尽可能简单。这将自然地导致一个关键结果的选择,以简单但相关的实例来展示学习理论中的重要概念。在没有证明的情况下,也将给出一些一般的结果。

本课程分为9节,每节3小时,除了最后一节专门介绍最近的学习理论成果外,每节都有一个精确的主题。见下面的暂定时间表。

目录内容:

  1. 无线数据学习 Learning with infinite data (population setting)
  • Decision theory (loss, risk, optimal predictors)
  • Decomposition of excess risk into approximation and estimation errors
  • No free lunch theorems
  • Basic notions of concentration inequalities (MacDiarmid, Hoeffding, Bernstein)
  1. 线性最小二乘回归 Linear least-squares regression
  • Guarantees in the fixed design settings (simple in closed form)
  • Guarantees in the random design settings
  • Ridge regression: dimension independent bounds
  1. 经典风险分解 Classical risk decomposition
  • Approximation error
  • Convex surrogates
  • Estimation error through covering numbers (basic example of ellipsoids)
  • Modern tools (no proof): Rademacher complexity, Gaussian complexity (+ Slepian/Lipschitz)
  • Minimax rates (at least one proof)
  1. 机器学习优化 Optimization for machine learning
  • Gradient descent
  • Stochastic gradient descent
  • Generalization bounds through stochastic gradient descent
  1. 局部平均技术 Local averaging techniques
  • Kernel density estimation
  • Nadaraya-Watson estimators (simplest proof to be found with apparent curse of dimensionality)
  • K-nearest-neighbors
  • Decision trees and associated methods
  1. 核方法 Kernel methods
  • Modern analysis of non-parametric techniques (simplest proof with results depending on s and d
  1. 模型选择 Model selection
  • L0 penalty with AIC
  • L1 penalty
  • High-dimensional estimation
  1. 神经方法 Neural networks
  • Approximation properties (simplest approximation result)
  • Two layers
  • Deep networks
  1. 特别话题 Special topics
  • Generalization/optimization properties of infinitely wide neural networks
  • Double descent
成为VIP会员查看完整内容
0
33

金融数学导论:概念和计算方法是金融数学的入门课程,侧重于模型的概念理解和问题解决。它包括风险管理所需的数学背景,如概率论、最优化等。这本书的目标是向读者展示广泛的基本问题,其中一些强调分析能力,一些需要编程技术和其他侧重于统计数据分析。此外,它还涵盖了主流金融数学教材之外的一些领域。如CCP的边际账户设置和系统风险,以及模型风险的简要概述。为了帮助学生为本书的考试做准备,我们还提供了一些练习和例子。

目录内容: 1 Preliminaries of finance and risk managemet 2 Modeling financial assets in discrete-time markets 3 Modelling financial asserts in cotinuous-time 4 American options

成为VIP会员查看完整内容
0
34

管理统计和数据科学的原理包括:数据可视化;描述性措施;概率;概率分布;数学期望;置信区间;和假设检验。方差分析;简单线性回归;多元线性回归也包括在内。另外,本书还提供了列联表、卡方检验、非参数方法和时间序列方法。

教材:

  • 包括通常在入门统计学课程中涵盖的学术材料,但与数据科学扭曲,较少强调理论
  • 依靠Minitab来展示如何用计算机执行任务
  • 展示并促进来自开放门户的数据的使用
  • 重点是发展对程序如何工作的直觉
  • 让读者了解大数据的潜力和目前使用它的失败之处
成为VIP会员查看完整内容
1
92

这本书来自统计学习课程,这是一门统计机器学习的入门课程,面向具有一些微积分、线性代数和统计学背景的学生。这门课程的重点是监督学习:分类和回归。本课程将涵盖机器学习和数据科学中使用的一系列方法,包括:

  • 线性回归(包括岭回归和Lasso)
  • 通过logistic回归和k近邻进行分类
  • 线性和二次判别分析
  • 回归和分类树(包括套袋林和随机林)
  • Boosting
  • 神经网络和深度学习

这些方法将在整个课程中被研究并应用于来自各种应用的真实数据。课程还涵盖了一些重要的实际问题,如交叉验证、模型选择和偏方差权衡。课程包括理论(例如,推导和证明)以及实践(特别是实验室和小型项目)。实际部分将使用Python实现。

成为VIP会员查看完整内容
0
91

尽管有很多尝试[1-6],深度学习的有效性到目前为止还没有明确的解释。考虑到神经网络是一个非常简单且定义良好的数学对象,这相当令人惊讶[7-9]。使分析变得困难的是深度神经网络通常是用大量的参数来描述的,例如权重矩阵、偏差向量、训练数据等。对于这样的系统,大多数分析技术不是很有用,必须依赖于数字。这种情况与物理中发生的情况非常相似。物理系统(包括经典系统和量子系统)通常可以在自由度很小的时候被精确地解决,但是当自由度很大的时候,这个问题就变得棘手了。幸运的是,有一组思想被证明对于分析具有多个自由度的物理系统非常有用。它是统计力学。本文的重点是将统计力学的方法应用于机器学习。在本节的其余部分,我们将总结主要结果,因为它可能有助于读者浏览本文。

成为VIP会员查看完整内容
0
30

本文采用了一种独特的机器学习方法,它包含了对进行研究、开发产品、修补和玩耍所必需的所有基本概念的全新的、直观的、但又严谨的描述。通过优先考虑几何直观,算法思维,和实际应用的学科,包括计算机视觉,自然语言处理,经济学,神经科学,推荐系统,物理,和生物学,这篇文章为读者提供了一个清晰的理解基础材料以及实际工具需要解决现实世界的问题。通过深入的Python和基于MATLAB/ octave的计算练习,以及对前沿数值优化技术的完整处理,这是学生的基本资源,也是从事机器学习、计算机科学、电子工程、信号处理和数值优化的研究人员和实践者的理想参考。其他资源包括补充讨论主题、代码演示和练习,可以在官方教材网站mlrefined.com上找到。

  • 建立在清晰的几何直觉上的讲述
  • 最先进的数值优化技术的独特处理
  • 逻辑回归和支持向量机的融合介绍
  • 将功能设计和学习作为主要主题
  • 通过函数逼近的视角,先进主题的无与伦比的呈现
  • 深度神经网络和核方法的细化描述
成为VIP会员查看完整内容
0
114
小贴士
相关VIP内容
专知会员服务
54+阅读 · 2月26日
专知会员服务
93+阅读 · 2月25日
专知会员服务
33+阅读 · 2020年12月14日
专知会员服务
34+阅读 · 2020年11月16日
专知会员服务
92+阅读 · 2020年7月29日
专知会员服务
91+阅读 · 2020年6月27日
专知会员服务
30+阅读 · 2020年5月19日
相关论文
Risheng Liu,Xuan Liu,Xiaoming Yuan,Shangzhi Zeng,Jin Zhang
0+阅读 · 6月15日
Chaoqi Yang,Cheng Qian,Navjot Singh,Cao Xiao,M Brandon Westover,Edgar Solomonik,Jimeng Sun
0+阅读 · 6月15日
Samuel N. Cohen,Tanut Treetanthiploet
0+阅读 · 6月15日
Bojana Milošević,Ya. Yu. Nikitin,Marko Obradović
0+阅读 · 6月14日
Adam Loy,Jenna Korobova
0+阅读 · 6月11日
Jerry R. Van Aken
0+阅读 · 6月10日
Xin Wang,Shinji Takaki,Junichi Yamagishi
4+阅读 · 2018年11月26日
Theme-weighted Ranking of Keywords from Text Documents using Phrase Embeddings
Debanjan Mahata,John Kuriakose,Rajiv Ratn Shah,Roger Zimmermann,John R. Talburt
5+阅读 · 2018年7月16日
Amritanshu Agrawal,Wei Fu,Tim Menzies
3+阅读 · 2018年2月20日
Top