【干货书】面向工程师的机器学习，237页pdf概述机器学习理论、算法、概念全覆盖

2021 年 3 月 10 日 专知

人工智能技术已经成为当前技术变革的主要推动力之一，从计算机科学到工程学等许多科学技术领域都在竭尽全力想用自动化的方法创造更大的价值。要想做到这一点，工程师当然必须要对当前最具潜力的机器学习方法有一个大致了解。伦敦国王学院信息学习教授 Osvaldo Simeone 公开发布了长达 237 页的最新专著，为工程师提供了全面细致的机器学习入门介绍。

本专著的目标是介绍机器学习领域内的关键概念、算法和理论框架，涵盖了监督学习与无监督学习、统计学习理论、概率图模型和近似推断等方向。本专著的目标读者是具有概率学和线性代数背景的电气工程师。本书基于第一原理（first principle）写作，并按照有清晰定义的分类方式对其中的主要思想进行了组织，其中的类别包含鉴别式模型和生成式模型、频率论者和贝叶斯方法、准确推断和近似推断、有向模型和无向模型、凸优化和非凸优化。本书中的数学框架使用了信息论的描述方式，以便工具具有统一性。书中提供了简单且可重复的数值示例，以便读者了解相关的关键动机和结论。本专著的目的并不是要为每个特定类别中已有的大量解决方案提供详尽的细节描述（这些描述读者可参阅教科书和论文了解），而是为了给工程师提供一个切入点，以便他们能借此进一步深入机器学习相关文献。

1 引言

1.1 机器学习

1.2 目标和纲要

2 线性回归入门介绍

2.1 监督学习

2.2 推断

2.3 频率论者

2.4 贝叶斯方法

2.5 最小描述长度（MDL）

2.6 解释与因果关系

2.7 信息论指标

2.8 总结

3 概率学习模型

3.1 指数分布族

3.2 最大熵性质

3.3 频率学习（Frequentist Learning）

3.4 贝叶斯学习

3.5 基于能量的模型（Energy-based Models）

3.6 通过广义线性模型（GLM）的监督学习

3.7 总结

4 分类

4.1 将分类作为监督学习问题

4.2 随机梯度下降

4.3 判别式确定性模型

4.4 判别式概率模型

4.5 生成式概率模型

4.6 多类别分类

4.7 非线性判别式模型：深度神经网络

4.8 Boosting

4.9 总结

5 统计学习理论

5.1 监督学习的一种形式框架

5.2 PAC 可学习性和样本复杂性

5.3 有限假设类别的 PAC 可学习性

5.4 VC 维和 PAC 学习的基本定理

5.5 总结

6 无监督学习

6.1 无监督学习

6.2 K-均值聚类

6.3 ML、ELBO 和 EM

6.4 有向生成模型

6.5 无向生成模型

6.6 判别式模型

6.7 自编码器

6.8 Ranking

6.9 总结

7 概率图模型

7.1 介绍

7.2 贝叶斯网络

7.3 马尔可夫随机场

7.4 概率图模型中的贝叶斯推断

7.5 总结

8 近似推断和学习

8.1 蒙特卡罗方法

8.2 变分推断

8.3 基于蒙特卡罗的变分推断

8.4 近似学习

8.5 总结

9 结语

附录

A 附录 A：信息度量

A.1 熵

A.2 条件熵和互信息

A.3 散度度量

B 附录 B：KL 散度和指数分布族

致谢

参考文献

介绍

当我在教授机器学习课程时，有着工程学背景的同事和学生经常问及：如何更好地入门机器学习。我通常会以书籍推荐的形式回应——一般但稍微过时的介绍，请读这本书；对于基于概率模型方法的详细调查，请查看这些索引；如果想要了解统计学习，我觉得这篇文章很有用；如此等等。结果证明这些回答无法使我与提问者满意。书籍很多很厚，使得繁忙的工程学教授和学生望而却步。因此我首次撰写了这篇专论，一篇基础且体量适当的入门书，其中通过简单的术语面向工程师统一介绍了机器学习主要思想和原理，同时涵盖了其最新发展和文献指导，以供进一步研究。

第二章，线性回归入门介绍

第二章我们回顾了三个核心的学习框架，即频率论者（frequentist）、贝叶斯和 MDL。频率论者为数据假定了真实、未知分布的存在，并致力于学习一个预测器（predictor），从而更好地泛化来自这一分布的不可见数据。这可通过学习一个插入最优预测器表达式的概率模型或者直接解决预测变量上的 ERM 问题而完成。贝叶斯方法输出一个预测分布，可通过解决计算不可见标签上后验分布的推断问题而整合先验信息与数据。最后，MDL 方法旨在筛选一个模型，允许使用最少的比特描述数据，因此去除在未观察实例上泛化的任务。本章也广泛讨论了过拟合的关键问题，展示了学习算法的性能可就偏差和评估错误获得理解。运行实例是用于高斯模型的线形回归中的一个。下一章将会介绍更多学习构建和学习常见概率模型的工具。

第三章，概率学习模型

本章中，我们回顾了概率模型的一个重要类别——指数族，它被广泛用作学习算法的组件以完成监督、无监督学习任务。这一类别成员的关键属性是由同一家族中的梯度 LL 和共轭先验的可用性采用的简单形式。下一章我们将讲述指数族在解决分类问题方面的不同应用模型。

第四章，分类

本章扼要概述了分类的关键问题。按照第二章提出的分类系统，我们依据用来连接解释性变量与标签的模型类型划分了学习算法。尤其地，我们描述了线性与非线性的确定性判别模型，涵盖了用于多层神经网络的感知机算法、SVM、反向传播；聚焦于 GLM 的概率判别模型；包括 QDA 和 LDA 在内的概率生成模型。我们同样介绍了混合模型与提升方法（Boosting）。尽管本章聚焦在算法方面，下一章将讨论一个理论框架，研究监督学习的性能。

第五章，统计学习理论

本章描述了经典的 PAC 框架，并用它分析监督学习的泛化性能。我们知道 VC 维理论定义了模型的能力，这就意味着 VC 维在给定模型准确度和置信度上度量了其学习所需要的样本数量。在下一章中，我们将从监督学习进一步讨论无监督学习问题。

第六章，无监督学习

在本章节中，我们回顾了无监督学习的基础知识。优秀的无监督学习方法一般都通过隐变量或潜在变量帮助解释数据的结构。我们首先通过期望最大化算法（EM）回顾了机器学习及各种变体。随后介绍了机器学习生成模型 GAN，该方法使用从数据中学到的散度度量以代替 KL 散度。随后接着回顾了通过 InfoMax 原则训练的判别模型和自编码器。在下一章节中，我们通过讨论概率图模型的强大框架而扩展了对概率模型的理解。

第七章，概率图模型

概率图模型将关于数据结构的先验信息编码为因果关系的形式，即通过有向图和贝叶斯网络（BN），或通过无向图和马尔可夫随机场（MRF）编码为相互之间的依赖性关系。这种结构可以表示为条件独立性属性。概率图模型所编码的结构属性能有效地控制模型的性能，因此能以可能的偏差为代价减少过模型拟合。概率图模型也推动执行贝叶斯推断，至少在树型结构的图中是这样的。下一章将讨论贝叶斯推断和关联学习比较重要的问题，当然具体的方法对计算力的需求就太大了。

第八章，近似推断与学习

本章通过关注 MC 和 VI 方法概览了近似推断技术。并且重点关注了选择不同类型的近似准则及其所产生的影响，例如介绍 M- 和 I- 映射。同样我们还讨论了在学习问题上使用近似推断的方法。此外，我们还讨论了本章目前最优的技术进展。

第九章，结语

这一章节主要是简单介绍机器学习，尤其是强调那些统一框架下的概念。除了前文纵览机器学习的各种方法，我们在这年还提供了那些只是提到或简要描述的重要概念及其扩展方向，因此下面将提供前文没有介绍的重要概念列表。

隐私：在许多应用中，用于训练机器学习算法的数据集包含了很多敏感的私人信息，例如推荐系统中的个人偏好和医疗信息等等。因此确保学习的模型并不会揭露任何训练数据集中的个人记录信息就显得十分重要了。这一约束能使用差分隐私（differential privacy）概念形式化表达。保证个人数据点隐私的典型方法包括在执行 SGD 训练模型时对梯度添加随机噪声，该方法依赖于使用不同的训练数据子集混合所学习到的专家系统 [1]。

鲁棒性：已经有研究者表明不同的机器学习模型包含神经网络对数据集中很小的变化十分敏感，它们会对次要的、正确选择的和解释变量中的变动给出错误的响应。为了确保模型关于对抗样本具有鲁棒性，修正训练过程是具有重要实践意义的研究领域 [37]。

计算平台和编程框架：为了扩展机器学习应用，利用分布式计算架构和相应的标准编程框架 [9] 是十分有必要的。

迁移学习：针对特定任务并使用给定数据集进行训练的机器学习模型，目前如果需要应用到不同的任务还需要重新初始化和训练。迁移学习研究领域即希望将预训练模型从一个任务获得的专业知识迁移到另一个任务中。神经网络的典型解决方案规定了通用隐藏层的存在，即对不同任务训练的神经网络有一些隐藏层是相同的。

域适应（Domain adaptation）：在许多学习问题中，可用数据和测试数据的分布并不相同。例如在语音识别中，模型学习时所使用的用户数据和训练后其他用户使用该模型所提供的语音数据是不同的。广义 PAC 理论分析了这种情况，其将测试分布作为测试和训练的分布差异函数而获得了泛化误差边界。

有效通信学习（Communication-efficient learning）：在分布式计算平台上，数据通常被分配在处理器中，处理器中的通信造成了延迟与能耗。一个重要的研究问题是找到学习性能与通信成本之间的最佳折衷。

强化学习：强化学习是机器学习方法最近大获成功的根本核心，获得了玩视频游戏或与人类选手对决的必要技能。在强化学习中，一方想要学习世界中已观察到的状态 x 和动作 t 之间的最优映射，比如说 p(t|x, θ)。不同于监督学习，强化学习中最优动作不可知，机器会由于采取的动作而获得一个奖励／惩罚信号。其中一个流行的方法是深度强化学习，它通过神经网络建模映射 p(t|x, θ)。通过使用强化方法评估梯度并借助 SGD，这被训练从而最大化平均奖励。