O'Reilly新书：《生成式深度学习》，近5年最先进GAN一网打全！

会员服务 ·

O'Reilly新书：《生成式深度学习》，近5年最先进GAN一网打全！

2019 年 7 月 29 日 新智元

新智元报道

作者：David Foster

编辑：肖琴

【新智元导读】如果你想要一本书来帮助你入门深度学习生成模型，那么最新出版的“Generative Deep Learning”一定是不二之选。本书囊括了包括BERT/GPT-2, StyleGAN等近五年来最先进的GAN，带你走进生成模型的奇妙世界。

现在是2019年7月20日UTC时间20:17。

50年前的今天，尼尔·阿姆斯特朗和巴兹·奥尔德林驾驶驾驶的登月舱“鹰”号降落在月球上。这是一项伟大的工程壮举，充满着勇气和坚定的决心。

快进50年，将这些宇航员带到月球表面去的阿波罗制导计算机(AGC)的处理能力就在你的口袋里——事实上，iPhone 6的计算能力就足以引导1.2亿个阿波罗11号飞船登月，而且是在同一时间。

这一事实并没有真正公正地反映AGC的辉煌。由于摩尔定律，你可以选择任何计算机器，也可以说50年后，将会有一台机器能够比它的运行速度快2²⁵倍。

编写AGC代码的软件团队的负责人是玛格丽特·汉密尔顿(Margaret Hamilton)，她没有把那时的硬件限制看作是一种障碍，而是一种挑战。她利用当时可用的资源完成了不可想象的目标。

Margaret Hamilton

这让我想到…

《生成式深度学习》新书

459天前，我收到来自O'Reilly Media的消息，询问我是否有兴趣写一本书。当时我觉得这似乎是个好主意，所以答应了，并决定写一本关于生成模型的最新指南——特别是如何构建最先进的深度学习模型，这样的模型可以绘画、写作、作曲和玩游戏。

更重要的是，我希望这本书能让读者深入了解生成式深度学习，并构建能够做出各种令人惊叹的事情的模型，而不需要大量昂贵且耗时的计算资源。

我很高兴地宣布，这本书现在可以可以通过亚马逊购买，也可以在O’Reilly网站上购买电子版。（注：作者David Foster是Applied Data Science的联合创始人）

我坚信，掌握任何技术的秘诀都是首先解决小问题，但是要了解每一行代码背后的原理。

如果你一开始就搞庞大的数据集和模型，那么会需要一天而不是一个小时的时间来运行，你不会学到更多的东西——只是将学习的速度放慢了24倍。

如果说登月教会了我们什么的话，那就是真正令人惊奇的事情是可以在非常少的计算资源下实现的，我的目标是让你在读完这本书后，对生成模型有同样的感受。

封面的鹦鹉是怎么回事?

为O’Reilly写书最棒的一点是，他们会在你的书的封面上画一只动物——我得到了一只画好的长尾小鹦鹉，我亲切地给它取名为Neil Wingstrong。

长尾小鹦鹉Neil Wingstrong

那么现在鹦鹉已经着陆，你还能从这本书中期待什么呢?

这本书是关于什么的?

这是一本关于生成模型的动手指南。

它将带你了解基本生成模型的基础知识，然后逐步构建更复杂的模型——始终使用实际示例、架构图和代码。

这本书适合任何想要深入了解当前热门的生成模型的人。你不需要深度学习的先验知识，所有代码示例都是用Python编写的。

这本书涵盖哪些内容?

我试图涵盖过去5年来所有的重要生成模型。

如下面的时间轴所示。

全书分为两部分，章节提纲如下:

第一部分：生成式深度学习简介

本书的前四章旨在介绍开始构建生成式深度学习模型所需的核心技术。

1. 生成模型

我们对生成建模领域进行了广泛的研究，并考虑了我们试图从概率角度解决的问题的类型。然后，我们探索了基本概率生成模型的第一个例子，并分析为什么随着生成任务的复杂性增加，可能需要部署深度学习技术。

2. 深度学习

本章将指导你开始构建更复杂的生成模型所需的深度学习工具和技术。我们将介绍Keras，一个用于构建神经网络的框架，可用于构建和训练一些在文献中发表的最先进的深度神经网络架构。

3.变分自动编码器

在本章中，我们将介绍第一个生成深度学习模型——变分自动编码器。这一强大的技术将允许我们从头开始生成逼真的面孔，并改变现有的图像——例如，添加微笑，或改变某人头发的颜色。

4. 生成对抗网络(GANs)

本章探讨了近年来最成功的生成模型技术之一——生成对抗性网络。这个用于构建生成模型问题的优雅框架是大多数最先进的生成模型背后的基础引擎。我们将学习它的微调的方式，从而不断推进生成模型能够实现的边界。

第二部分：教机器绘画、写作、作曲和玩游戏

第二部分提供了一组案例研究，展示了如何将生成建模技术应用于特定的任务。

5. 绘画

在本章中，我们将研究两种与机器绘画有关的技术。首先我们来看看CycleGAN，顾名思义，它是GAN架构的一个改编，允许模型学习如何将照片转换成特定风格的绘画(反之亦然)。我们还探索了包含在许多照片编辑应用程序中的神经风格迁移技术，这种技术允许你将一幅画的风格转移到一张照片上，给人一种这是同一位艺术家的画的印象。

6. 写作

在本章中，我们将注意力转向机器写作，这是一项对图像生成提出不同挑战的任务。本章介绍了递归神经网络(RNN)的结构，它允许我们处理涉及序列数据的问题。我们还将了解encoder–decoder 架构是如何工作的，并构建一个问答生成器。

7. 作曲

本章着眼于音乐生成，这也是一个序列生成问题，但提出了额外的挑战，如建模音乐的音高和节奏。我们将了解许多用于文本生成的技术如何可以应用于音乐生成任务，但我们还将探索一个称为MuseGAN的深度学习架构，它将第4章(关于GAN)中的思想应用于音乐数据。

8. 玩游戏

本章展示了生成模型如何应用于其他机器学习领域，如强化学习。最近几年最激动人心的一篇论文是“世界模型”，作者展示了一个生成模型可以用作智能体训练的环境，因此本质上允许智能体对未来可能的场景“做梦”，想象如果采取某些行动会发生什么，完全在其环境的概念模型中。

9. 生成模型的未来

本章是对当前生成模型的概述，并回顾了在本书中介绍的技术。我们还将放眼未来，探索今天可用的最先进技术如GPT-2和BigGAN可能如何改变我们创造的方式，我们是否能创造一个人造实体，它可以生产内容，创造性地生成艺术作品、文学和音乐。

10. 结论

本章关于为什么生成式深度学习在未来5-10年可能成为机器学习最重要、最有影响力的领域。

总结

在一个事实和虚构不那么容易分离的世界里，至关重要的是有一些工程师能够详细地理解生成模型的工作原理，并且不会因为技术限制而却步。