This paper proposes Capstan: a scalable, parallel-patterns-based, reconfigurable-dataflow accelerator (RDA) for sparse and dense tensor applications. Instead of designing for one application, we start with common sparse data formats, each of which supports multiple applications. Using a declarative programming model, Capstan supports application-independent sparse iteration and memory primitives that can be mapped to vectorized, high-performance hardware. We optimize random-access sparse memories with configurable out-of-order execution to increase SRAM random-access throughput from 32% to 80%. For a variety of sparse applications, Capstan with DDR4 memory is 22x faster than a multi-core CPU baseline, while Capstan with HBM2 memory is 17x faster than an Nvidia V100 GPU. For sparse applications that can be mapped to Plasticine, a recent dense RDA, Capstan is 7.6x to 365x faster and only 13% larger.
翻译:本文建议 Capstan : 一种可缩放的、 以平行模式为基础的、 可重新配置的数据流加速器( RDA ), 用于稀疏和稠密的 发源应用程序。 我们不为一个应用程序设计共同的稀散数据格式, 每一个格式都支持多个应用程序。 Capstan 使用一个声明式编程模型, 支持可绘制成矢量高性能硬件的应用程序独立稀释和记忆原始。 我们优化随机获取的稀有记忆, 以可配置的系统外执行方式将 SRAM 随机访问量从 32% 增加到 80% 。 对于各种稀有应用程序, Capstan 的 DCPM4 内存比多核心CPU 基线要快22x, 而 HBM2 内存比 Nvidia V100 GPU 要快17x 。 对于可以绘制成可塑胶( 最近密度的RDA) 的稀少应用, Capstan 是 760x 至 365x 和 只有 13% 。