这个教程主要介绍一些技术,以帮助深度学习从业者加速大型深度网络的训练和推理,同时在一系列现成硬件上减少内存需求,这对于自动驾驶和大型语言模型等重要应用是非常有用的。主题包括但不限于:
深度学习专用硬件概述。我们回顾最常用的深度学习加速硬件的架构,包括主要的计算处理器和内存模块。 如何在这些硬件上执行深度学习。我们涵盖算法强度的方面和计算的理论概述。与会者将学会如何仅通过查看硬件规格和网络架构来估算处理时间和延迟。
加速的最佳实践。我们提供了设计高效神经网络的最佳实践概述,包括选择通道数量、计算密集型操作或减少操作等。
模型加速的现有工具。在这部分,我们将重点介绍用于加速GPU设备上训练过的神经网络的现有工具。我们将特别讨论操作折叠、TensorRT、ONNX图优化、稀疏性等。 近期技术的研究概述。在最后一部分,我们将关注用于后训练模型优化的最新高级技术,包括剪枝、量化、模型蒸馏或神经结构搜索等。