【硬核书】理解机器学习：从理论到算法，449页pdf深度理解机器学习

2020 年 5 月 28 日 专知

机器学习是计算机科学中增长最快的领域之一，具有深远的应用。本书的目的是介绍机器学习，以及它所提供的算法范例。本书对机器学习的基本原理和将这些原理转化为实际算法的数学推导提供了理论解释。在介绍了基础知识之后，这本书涵盖了以前教科书没有涉及到的一系列广泛的中心主题。这些包括讨论学习的计算复杂性和凸性和稳定性的概念;重要的算法范例包括随机梯度下降、神经网络和结构化输出学习;以及新兴的理论概念，如PAC-Bayes方法和基于压缩的界限。本文面向高级本科生或刚毕业的学生，使统计学、计算机科学、数学和工程学领域的学生和非专业读者都能接触到机器学习的基本原理和算法。

https://www.cse.huji.ac.il/~shais/UnderstandingMachineLearning/index.html

概述：

机器学习是指自动检测数据中有意义的模式。在过去的几十年里，它已经成为几乎所有需要从大数据集中提取信息的任务的通用工具。我们被一种基于机器学习的技术包围着:搜索引擎学习如何给我们带来最好的结果(同时投放有利可图的广告)，反垃圾邮件软件学习如何过滤我们的电子邮件信息，信用卡交易被一种学习如何侦测欺诈的软件保护着。数码相机学会识别人脸，智能手机上的智能个人辅助应用学会识别语音指令。汽车配备了使用机器学习算法构建的事故预防系统。机器学习还广泛应用于生物信息学、医学和天文学等科学领域。

所有这些应用程序的一个共同特征是，与计算机的更传统使用相比，在这些情况下，由于需要检测的模式的复杂性，人类程序员无法提供关于这些任务应该如何执行的明确、详细的规范。以智慧生物为例，我们的许多技能都是通过学习我们的经验(而不是遵循给我们的明确指示)而获得或改进的。机器学习工具关注的是赋予程序“学习”和适应的能力。

这本书的第一个目标是提供一个严格的，但易于遵循，介绍机器学习的主要概念: 什么是机器学习?

本书的第二个目标是介绍几种关键的机器学习算法。我们选择展示的算法一方面在实践中得到了成功应用，另一方面提供了广泛的不同的学习技术。此外，我们特别关注适合大规模学习的算法(又称“大数据”)，因为近年来，我们的世界变得越来越“数字化”，可用于学习的数据量也在急剧增加。因此，在许多应用中数据量大，计算时间是主要瓶颈。因此，我们明确地量化了学习给定概念所需的数据量和计算时间。

目录：