The rapid advancement in AI architectures and the proliferation of AI-enabled systems have intensified the need for domain-specific architectures that enhance both the acceleration and energy efficiency of AI inference, particularly at the edge. This need arises from the significant resource constraints-such as computational cost and energy consumption-associated with deploying AI algorithms, which involve intensive mathematical operations across multiple layers. High-power-consuming operations, including General Matrix Multiplications (GEMMs) and activation functions, can be optimized to address these challenges. Optimization strategies for AI at the edge include algorithmic approaches like quantization and pruning, as well as hardware methodologies such as domain-specific accelerators. This paper proposes TYTAN: TaYlor-series based non-linear acTivAtion eNgine, which explores the development of a Generalized Non-linear Approximation Engine (G-NAE). TYTAN targets the acceleration of non-linear activation functions while minimizing power consumption. The TYTAN integrates a re-configurable hardware design with a specialized algorithm that dynamically estimates the necessary approximation for each activation function, aimed at achieving minimal deviation from baseline accuracy. The proposed system is validated through performance evaluations with state-of-the-art AI architectures, including Convolutional Neural Networks (CNNs) and Transformers. Results from system-level simulations using Silvaco's FreePDK45 process node demonstrate TYTAN's capability to operate at a clock frequency >950 MHz, showcasing its effectiveness in supporting accelerated, energy-efficient AI inference at the edge, which is ~2 times performance improvement, with ~56% power reduction and ~35 times lower area compared to the baseline open-source NVIDIA Deep Learning Accelerator (NVDLA) implementation.


翻译:人工智能架构的快速进步以及人工智能赋能系统的普及,加剧了对领域专用架构的需求,以提升人工智能推理(尤其是在边缘端)的加速能力和能效。这种需求源于部署人工智能算法所面临的严峻资源约束——例如计算成本和能耗——这些算法涉及跨多个层的密集数学运算。高功耗运算,包括通用矩阵乘法(GEMM)和激活函数,可以通过优化来应对这些挑战。面向边缘人工智能的优化策略包括量化与剪枝等算法方法,以及领域专用加速器等硬件方法。本文提出了TYTAN:基于泰勒级数的非线性激活引擎,旨在探索一种广义非线性近似引擎(G-NAE)的开发。TYTAN致力于加速非线性激活函数,同时最小化功耗。TYTAN将可重构硬件设计与一种专用算法相结合,该算法动态估计每个激活函数所需的近似值,旨在实现与基线精度相比的最小偏差。所提出的系统通过对最先进人工智能架构(包括卷积神经网络(CNN)和Transformer)的性能评估进行了验证。使用Silvaco的FreePDK45工艺节点进行的系统级仿真结果表明,TYTAN能够在>950 MHz的时钟频率下运行,展示了其在支持加速、高能效的边缘人工智能推理方面的有效性,与基线开源NVIDIA深度学习加速器(NVDLA)实现相比,性能提升约2倍,功耗降低约56%,面积减少约35倍。

0
下载
关闭预览

相关内容

PEFT A2Z:大型语言与视觉模型的参数高效微调综述
专知会员服务
21+阅读 · 2025年4月22日
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员