【2022新书】深度学习的数学工程，The Mathematical Engineering of Deep Learning

2022 年 4 月 12 日 专知

这本书提供了深度学习的数学工程的一个完整和简明的概述。除了概述深度学习的基础之外，本课程还包括卷积神经网络、循环神经网络、transformers、生成对抗网络、强化学习和多种技巧。重点是深度学习模型、算法和方法的基本数学描述。该报告主要是对计算机代码、神经科学关系、历史观点和理论研究的不可知论。这种方法的好处是，具备数学能力的读者可以快速掌握现代深度学习算法、模型和技术的精髓，而无需查看计算机代码、神经科学或历史进程。

https://deeplearningmath.org/

深度学习是很容易通过数学语言来描述的，在一个许多专业人士都能接触到的水平。来自工程、信号处理、统计学、物理学、纯数学、计量经济学、运算学、定量管理、应用机器学习或应用深度学习等领域的读者将迅速深入了解该领域的关键数学工程组件。

本书有10章和3个附录。第1-4章概述了机器学习的关键概念，概述了深度学习所需的优化概念，并重点介绍了基本模型和概念。第5-8章讨论了深度学习的核心模型和架构，包括全连接网络、卷积网络、循环网络，并概述了模型调整和应用的各个方面。第9-10章涉及特定领域，即生成对抗网络和深度强化学习。附录A-C提供了数学支持。以下是内容的详细概述。

第一章-引言: 在这一章中，我们概述了深度学习，演示了关键的应用程序，调研了相关的高性能计算生态系统，讨论了高维的数据，并为本书的其余部分定下基调。这一章讨论了包括数据科学、机器学习和统计学习在内的关键术语，并将这些术语放在书的上下文中。主要的流行数据集，如ImageNet和MNIST数字也被概述，并描述了深度学习的出现。

第二章-机器学习原理: 深度学习可以被视为机器学习的一个分支学科，因此本章提供了机器学习的关键概念和范例的概述。向读者介绍了监督学习、无监督学习和基于迭代的学习优化的一般概念。介绍了训练集、测试集等的概念，以及交叉验证和模型选择的原则。本章探讨的一个关键对象是线性模型，它也可以通过迭代优化进行训练。这使得我们可以看到基本的梯度下降算法的实际应用，这个算法后来被改进并在本书的续篇中大量使用。

第三章-简单的神经网络: 在这一章中，我们关注二元分类的逻辑回归和相关的用于多类问题的Softmax回归模型。这就是深度学习的原理，如交叉熵损失、决策边界和简单的反向传播案例的介绍。本章还介绍了一个简单的非线性自动编码器体系结构。模型调整方面也被讨论，包括特征工程和超参数选择。

第四章-优化算法: 深度学习模型的训练涉及对学习参数的优化。因此，需要对优化算法有扎实的理解，以及对深度学习模型(如ADAM算法)的专业优化技术的理解。在这一章中，我们将重点关注这些技术以及正在慢慢进入实践的更高级的二级方法。我们还研究了各种形式的自动微分的细节，并在逻辑回归的背景下进行了比较，其中一阶和二阶方法都可以使用。

第五章-前馈深度网络:这一章是本书的核心，在这里定义了一般的前馈深度神经网络

在探索了深度神经网络的表达能力之后，我们通过理解梯度评估的反向传播算法来深入训练的细节，并探索其他实用方面，如权值初始化、dropout和批处理归一化。

第六章-卷积神经网络: 深度学习的成功很大程度上归功于卷积神经网络在应用于图像和类似数据格式时的力量。在本章中，我们将探讨卷积的概念，然后在深度学习模型的背景下了解它。介绍了通道和滤波器设计的概念，然后探讨了已经产生重大影响并至今仍在使用的先进体系结构的常见状态。我们还探讨了一些与图像相关的关键任务，如对象定位。

第七章-序列模型: 序列模型对于数据非常重要，比如自然语言处理中的文本应用。在本章中，我们将了解深度学习领域的关键思想。我们探讨循环神经网络及其推广。这些包括长期短期记忆模型，门控循环单元，端到端语言翻译的自动编码器，以及带有变压器的注意模型。

第八章-行业技巧: 在学习了前馈网络、卷积网络和各种形式的循环网络之后，我们现在来探索在应用中调整和集成这些模型的常用方法。关键问题包括超参数选择和优化它们的技术。其他问题涉及通过迁移学习从一个数据集到另一个数据集的模型适应，以及增加数据集的方法。我们还讨论了图像transformer的应用和实现的各个方面，包括对深度学习软件框架的描述。

第九章-生成式对抗网络: 在本章中，我们调研和探索生成式对抗网络(GANs)，它是能够合成看起来真实的假数据的模型。GAN的基本构造是基于一个博弈论的设置，其中生成器模型和鉴别器模型被联合训练以得到一个训练过的系统。我们讨论了几种GAN架构，以及在适应损耗函数时出现的有趣的数学方面。

第十章-深度强化学习: 在最后一章中，我们将探讨深度强化学习的原理，这是一种动态系统的自适应控制方法。当考虑人工智能系统时，这经常被引入到agent的背景下，但是我们采用了一个更经典的方法，并在控制理论和马尔可夫决策过程的背景下提出它。我们首先为MDPs和Q-learning奠定基础，然后探索通过深度神经网络逼近Q函数的各种进展。