来自巴斯大学计算机科学教授Simon J.D. Prince撰写的《理解深度学习》新书,共有19章,从机器学习基础概念到深度学习各种模型,包括最新的Transformer和图神经网络,比较系统全面,值得关注。
深度学习的历史在科学界是不寻常的。一小群科学家的坚持不懈,在一个看似没有希望的领域工作了25年,已经彻底改变了一个领域,并极大地影响了社会。通常,当研究人员调查科学或工程的一个深奥和明显不切实际的角落时,它仍然是深奥和不切实际的。然而,这是一个明显的例外。尽管普遍存在怀疑,但Yoshua Bengio、Geoff Hinton、Yann LeCun等人的系统努力最终取得了回报。本书的标题是“理解深度学习”,以区别于涵盖编码和其他实用方面的书籍。**本文主要介绍深度学习的基础思想。**本书的第一部分介绍了深度学习模型,并讨论了如何训练它们、衡量它们的性能并提高性能。下一部分将讨论专门用于图像、文本和图形数据的体系结构。这些章节只需要线性代数、微积分和概率论的入门,任何数量学科的二年级本科生都应该能读懂。本书后续部分将讨论生成模型和强化学习。这些章节需要更多的概率和微积分知识,目标是更高级的学生。这个标题在一定程度上也是一个笑话——在写作时,没有人真正理解深度学习。现代深度网络学习的分段线性函数的区域比宇宙中原子的数量还要多,并且可以用比模型参数更少的数据示例进行训练。显然,我们应该能够可靠地拟合这些函数,也不应该很好地泛化到新数据。最后一章讨论这些以及其他尚未完全理解的方面。您的时间是宝贵的,我努力策划和呈现材料,以便您可以尽可能高效地理解它。每一章的主要内容是对最重要的思想的简要描述,并附有插图。附录回顾了所有的数学先决条件,不需要参考外部材料。对于希望深入研究的读者,每一章都有相关的问题、Python笔记,并总结了该领域的历史和最新研究。写一本书是一个孤独的、艰难的、多年的过程,只有当它被广泛采用时才有价值。如果您喜欢阅读本文或有改进建议,请通过附带的网站与我联系。我很乐意听到你的想法,这些想法将为后续的版本提供信息和动力。
**人工智能(AI)关注的是构建模拟智能行为的系统。**它包含了广泛的方法,包括基于逻辑、搜索和概率推理的方法。机器学习是人工智能的一个子集,它通过将数学模型拟合到观察到的数据来学习做出决策。这个领域经历了爆炸式的增长,现在(错误地)几乎是AI这个术语的同义词。深度神经网络是机器学习模型的一种,当该模型对数据进行拟合时,这被称为深度学习。在撰写本文时,深度网络是最强大、最实用的机器学习模型,在日常生活中经常遇到。使用自然语言处理算法翻译另一种语言的文本,使用计算机视觉系统在互联网上搜索特定对象的图像,或通过语音识别界面与数字助理交谈,都是很常见的。所有这些应用程序都是由深度学习驱动的。正如标题所示,本书旨在帮助该领域的新读者理解深度学习背后的原理。这本书既不太理论化(没有证明),也不太实用(几乎没有代码)。我们的目标是解释潜在的想法;在阅读完这本书后,读者将能够将深度学习应用于没有现有成功秘诀的新颖情况。机器学习方法大致可以分为三个领域:有监督、无监督和强化学习。在本书写作时,这三个领域的前沿方法都依赖于深度学习(图1 - 1)。本章从较高的层次描述了这三个领域,本书的组织结构也大致反映了这种分类法。
**本书的结构与这篇引言的结构一致。第2 ~ 9章介绍了监督学习流程。本文介绍了浅层和深层神经网络,并讨论了如何训练它们,测量和提高它们的性能。**第10-13章描述了深度神经网络的常见架构变体,包括卷积网络、残差连接和transformer。这些架构用于监督、无监督和强化学习。第14 ~ 18章使用深度神经网络解决无监督学习问题。我们用一章的时间介绍四个现代深度生成模型:生成对抗网络、变分自动编码器、归一化流和扩散模型。第19章简要介绍了深度强化学习。这是一个可以单独写成一本书的话题,因此这里的论述必然是肤浅的,但对于不熟悉该领域的读者来说,这是一个很好的起点。尽管这本书的标题是,深度学习的一些方面仍然鲜为人知。第20章提出了一些基本问题。为什么深度网络如此容易训练?为什么它们的泛化能力这么好?为什么他们需要这么多参数?它们需要很深吗?在此过程中,探索了意想不到的现象,如损失函数的结构、双下降、grokking和彩票。 * Chapter 1 - 导论 Introduction * Chapter 2 - 监督学习 Supervised learning * Chapter 3 - 浅层神经网络 Shallow neural networks * Chapter 4 - 深度神经网络 Deep neural networks * Chapter 5 - 损失函数 Loss functions * Chapter 6 - 训练模型 Training models * Chapter 7 - 梯度与初始化 Gradients and initialization * Chapter 8 - 度量性能 Measuring performance * Chapter 9 - 正则化 Regularization * Chapter 10 - 卷积网络 Convolutional nets * Chapter 11 - 残差网络 Residual networks and BatchNorm * Chapter 12 - Transformers * Chapter 13 - 图神经网络 Graph neural networks * Chapter 14 - 无监督学习Unsupervised learning * Chapter 15 - 生成对抗网络 Generative adversarial networks * Chapter 16 - Normalizing flows * Chapter 17 - 变分自编码器 Variational auto-encoders * Chapter 18 - 扩散模型 Diffusion models * Chapter 19 - 深度强化学习 Deep reinforcement learning * Chapter 20 - 为什么深度学习work?Why does deep learning work?