从头开始构建，DeepMind新论文用伪代码详解Transformer

2022 年 7 月 21 日 机器之心

机器之心报道

编辑：陈萍、小舟

与滚动 1000 行源代码相比，伪代码更浓缩，思路更清晰。

2017 年 Transformer 横空出世，由谷歌在论文《Attention is all you need》中引入。这篇论文抛弃了以往深度学习任务里面使用到的 CNN 和 RNN。这一开创性的研究颠覆了以往序列建模和 RNN 划等号的思路，如今被广泛用于 NLP。大热的 GPT、BERT 等都是基于 Transformer 构建的。

Transformer 自推出以来，研究者已经提出了许多变体。但大家对 Transformer 的描述似乎都是以口头形式、图形解释等方式介绍该架构。关于 Transformer 的伪代码描述可参考的资料很少。

正如下面这段话所表达的：一位 AI 领域非常出名的研究者，曾向一位著名的复杂性理论家发送了一篇自认为写得非常好的论文。而理论家的回答是：我在论文中找不到任何定理，我不知道这篇论文是关于什么的。

对于从业者来说，论文可能足够详细，但理论家需要的精度通常更高。由于某些原因，DL 社区似乎不愿为他们的神经网络模型提供伪代码。

目前看来，DL 社区存在以下问题：

DL 出版物缺乏科学的准确性和细节。深度学习在过去 5 到 10 年间取得了巨大的成功，每年发表的论文数以千计。许多研究者只是非正式地描述了他们如何改变以前的模型，大约 100 多页的论文只包含几行非正式地模型描述。充其量是一些高级图表，没有伪代码，没有方程式，没有提到对模型的精确解释。甚至没有人为著名的 Transformer 及其编码器 / 解码器变体提供伪代码。

源代码与伪代码。开源源代码非常有用，但与数千行的真实源代码相比，精心设计的伪代码通常不到一页，并且基本上仍然是完整的。这似乎是一项没有人愿意做的苦工作。

解释训练过程同样重要，但有时论文中甚至没有提到模型的输入和输出以及潜在的副作用是什么。论文中的实验部分通常不会解释输入算法的内容以及如何输入。如果方法部分有一些解释，通常与实验部分中描述的内容脱节，可能是由于不同的作者编写了不同的部分造成的。

有人会问：真的需要伪代码吗? 伪代码有什么用？

来自 DeepMind 的研究者认为提供伪代码有很多用途，与阅读文章或滚动 1000 行实际代码相比，伪代码将所有重要的内容浓缩在一页纸上，更容易开发新的变体。为此，他们最近发表的一篇论文《 Formal Algorithms for Transformers 》，文章以完备的、数学上精确的方式来描述 Transformer 架构。

论文简介

本文涵盖了什么是 Transformer、Transformer 如何训练、Transformer 被用来做什么、Transformer 关键架构组件以及比较出名的模型预览。