硅谷教父John Hennessy：我们正站在计算机架构第五时代的门槛上

会员服务 ·

硅谷教父John Hennessy：我们正站在计算机架构第五时代的门槛上

2020 年 10 月 27 日 AI科技评论

作者 | 蒋宝尚

编辑 | 青暮

近日，图灵奖得主John Hennessy 在CNCC 2020进行了特邀报告，在报告《第四代计算机体系结构的终结与新的前进道路》中，他就第四代计算机体系结构的终结与新的前进道路展开论述。

具体而言，他回答了：“我们如何设计计算机来提高性能，特别是对于像机器学习这样计算要求很高的任务”等问题。另外，他还断言：计算机架构第五时代必然是专用处理器的天下，而目前我们正处在第四时代到第五时代转换的节点上。

以下是报告全文，AI科技评论进行了不改变原意的整理。

大家好，我是John L. Hennessy，非常高兴参与CNCC2020会议，与大家讨论计算机架构这一话题。虽然很希望能够到现场和大家互动，但是线上交流似乎是目前最明智的选择。

在1977年，我还年轻，当时在斯坦福大学担任助理教授，从此开启了研究生涯，记得那时苹果公司还没有成立，微型处理器还是相对新颖的研究方向。

那时候，1980 年代早期，人们对更大型控制存储器中大型微程序使用的复杂指令集计算机（CISC）进行了一些研究。而我进行的是让我们重新思考如何设计计算机的研究方向：精简指令集计算机（RISC）。

由于这项工作具有颠覆性，我当时以为工业界很快就接受其想法。但事实上并没有，甚至，最初以我们的想法为基础的一些实验项目，被停掉了。因此，这让我明白了必须要成立一家公司证明这项技术、想法的可行性。于是，MIPS科技公司诞生了。

具体的时间点是：1984年，MIPS计算机公司成立。1992年，美国硅图公司收购了MIPS计算机公司。1998年，MIPS脱离美国硅图。

创办MIPS计算机公司是我首次进入硅谷所做出的事情，之后我就又回到了大学，再之后（1999年）我就和我的同事斯坦福大学的Teresa Meng博士共同创办了Atheros，这家公司早在WiFi成为标准之前，就已经引领WiFi趋势。当然，这家公司最后也卖给了高通，我也回到斯坦福大学担任工程院院长。

另外，我还在斯坦福大学担任了16年的校长，并领导了奈特-汉尼斯学者奖学金项目，作为斯坦福大学全新的研究生奖学金项目，旨在培养下一代的全球领袖以解决世界面临的日益复杂的各种挑战。

在我担任校长期间，通过观察，发现无论是在政府、学界还是业界，其有强大的领导能力的人并没有多少，因此我们正在做出各种努力来培养“下一代领导人”。这个话题并不是今天的重点，今天的重点是讲技术，也就是摩尔定律带来的有趣转折点。

65年的计算机结构发展

计算机架构已经走过了四个时代，在过去的65年期间取得了令人惊讶的进步，尤其是最近40年，微处理器的设计持续推陈出新，其处理性能每年提升1.4倍，与40年前相比计算机的运行速度已经提升了10^6倍。

总体而言，有三个架构的创新：

1.架构越来越宽，从最初的8bit到16bit再到64bit。

2.指令级并行（ILP）在一段时间内是提高性能的主要架构方法。

3.出现多核技术，与单个内核相比，32 个内核的应用程序运行速度要快得多。

另外，在这期间，摩尔定律的出现预测了处理性能的提升：集成电路上可容纳的晶体管数目，约每隔18个月便会增加一倍，性能也将提升一倍。

伴随摩尔定律是由罗伯特·登纳德（Robert Dennard）预测的登纳德缩放定律（Dennard scaling）。他指出，随着晶体管密度的增加，每个晶体管的能耗将降低，因此硅芯片上每平方毫米上的能耗几乎保持恒定。由于每平方毫米硅芯片的计算能力随着技术的迭代而不断增强，计算机将变得更加节能。

然后，让我们看看在过去的65年期间，计算机都发生了怎样的变化。从上图可知，计算机在不同的时代，其命名、技术以及特点各有不同。

在1955-1964，其使用的技术是晶体管，在这期间每一个模型都是不同的；随后进入了360时代，开始了小规模和中等规模的集成，使我们能够开发大型机器，甚至开发超级计算机。

微处理器出现之后，技术成本开始下降，在摩尔定律给出的预测下，微处理器变得越来越有能力。我们开始使用了大量的指令级并行性，兼顾效率的同时承担了其他风险。指令级并行大行其道之后，我们进入了第四个时代，重点在多核，即单芯片上存在多个单独的处理器，其性能再一次获得提升。

第四个时代即将结束，因为登纳德缩放定律和摩尔定律正在经历它的“没落王朝”，我们正站在第五个时代的门槛上，这个时代的重点以及趋势是专用处理器。

第五时代属于专用处理器

如上图所示，80年代中期至千禧年这段时间，计算机的性能每年能提高 52% 左右。而在过去五~六年期间，每年只有3.5%性能提升。

更为具体一些，，自2012年以来，随着功率的增加，我们的芯片每纳米消耗的电力越来越多，这意味着增加了能源消耗，降低了效率。因此，登纳德缩放定律的终结意味着工程师必须找到更加高效的利用方法。

能耗真的很重要，尤其是在过去的20年里，手机、IOT、大型的云服务的崛起，降低能耗已经成为重要成本花费。于是，我们看到处理器达到温度极限的现象，因此芯片过热而自动停止工作等设计也浮出水面，但即使设计非常巧妙，热量和电池仍然是限制因素。

我们必须改变架构设计，提高能耗的效率，在相同功率的情况下提高性能。其实，回顾历史，计算机架构每一个时代的总结都伴随着能耗极限的到来，例如2005年我们结束指令级并行，开始了多核的研究。

但是，在多核系统中，存在着某些规律的制约，意味着我们永远无法达到能源利用的上限。因此，通用处理器碰壁了。问题在于缓存变得越来越大，在性能博弈方面，得到的回报是递减的，而能耗却在继续扩大。

这时候我们必须问：有没有其他的有效方法？

目前，以软件为中心的方法正在努力提高效率。我们使用脚本语言(如Java或Python)进行编程。它们属于解释性语言并且属于动态类型，因此在一定程度上具有重用性和灵活性。

这带来的缺点是：对于程序员来说是高效的，但是执行效率有待提高。

另一种思路是：以硬件为中心。其设计想法是设计针对特定问题和领域的架构（特定领域的体系结构（DSA））。这种特定领域的可编程处理器，通常是图灵完备的，效果拔群。但其缺点在于：只能执行少数任务。

而事实上，我们将两种方法结合：将特定领域的语言与旨在优化该语言执行的架构一起使用。

算力被锁死？顶层设计仍有希望

上图是MIT、英伟达、微软的研究者在《Science》上的文章，描述了性能提升软件方面的潜力。

具体而言，上图描述的是：Python 代码实现两个 4096×4096 的矩阵相乘的时候，代码在一台现代计算机上做该矩阵乘法需要 7 个小时，用 Java 实现的代码（Version 2）速度可以提高到原来的 10.8 倍，用 C 语言（Version 3）又可以提升到 Java 的 4.4 倍，运行时间比最初的 Python 版本快 47 倍。这种性能的提升来源于程序运行时操作数量的减少。

此外，根据硬件的特点来调整矩阵乘法的代码甚至可以让运行速度提升 1300 倍。最终，代码优化的方法可以把这项任务所需的时间减少到 0.41 秒，这跟需要 7 个小时运行的 Python 相比速度提升了 6 万倍。

诚然，这是一个相对容易优化的简单例子，但是我觉得这里面显示了一些机会。对于特定领域的架构，根据领域的特点来定制架构，从而达到更高的效率。这并不只是针对一个应用，而是针对一整个领域的应用。值得一提的是，这些特定领域的架构虽然可以进行一系列密切相关的应用。但与通用处理器相比，它们需要更多的特定领域知识。

因此，你只有以更加深层次的方式了解应用，才能获得一些性能的提升。深度学习其所针对的神经网络处理器就是非常好的例子，我们可以看到GPU已经彻底改变了图形计算的性能。

GPU只是冰山一角，对特定领域进行定制处理器的需求巨大，当前在机器学习社区，更多人的研究方向是如何用机器学习处理数据，而不是编写大量代码尝试生成有趣应用程序的新方法。目前，机器学习发表论文的增速已经和摩尔定律一样快了。

我对专用处理器的兴趣非常浓厚，我认为它正在引领着一场革命。那么，我们应该从什么角度观察它带来的机会呢？如上图所示，其展示的是，当我加载一段简单的指令，能量的消耗在各部分所占比例。显然，控制占大头，缓存所占比例也不少，这两部分大概能消耗60%~80%的能量。

如果能改善这种情况，我们处理器的性能将会上一个台阶。面对这种情况，针对特定领域的专用处理器比通用处理器更能“打”，它带来的好处是： 1.它能够在特定领域使用更简单的并行性(较少控制硬件)；2.也能够更有效地使用内存带宽；3.还能够消除不需要的精度。

第一种好处是从多指令、多数据类型的体系结构出发。其实，这暗符多核的意义。

第二种好处指的是其能够进行用户控制的存储，而不是缓存。虽然缓存能够满足灵活性的要求，但是其付出的代价也是巨大的。

第三种好处是，适用于通用任务的 CPU 通常支持 32 和 64 位整型数和浮点数数据。对于很多机器学习和图像应用来说，这种准确率有点浪费了。例如在深度神经网络中，推理通常使用 4、8 或 16 位整型数，从而提高数据和计算吞吐量。同样，对于 DNN 训练程序，浮点数很有意义，但 32 位就够了，16 为经常也能用。