We have a FPGA design, we make it fast, efficient, and tested for a few important examples. Now we must infer a general solution to deploy in the data center. Here, we describe the FPGA DPUV3INT8 design and our compiler effort. The hand-tuned SW-HW solution for Resnet50\_v1 has (close to) 2 times better images per second (throughput) than our best FPGA implementation; the compiler generalizes the hand written techniques achieving about 1.5 times better performance for the same example, the compiler generalizes the optimizations to a model zoo of networks, and it achieves 80+\% HW efficiency.
翻译:我们有一个 FPGA 设计, 我们使它快速、 高效, 并测试了几个重要的例子。 现在我们必须推断出在数据中心部署的一般解决方案。 在这里, 我们描述 FPGA DPUV3INT8 设计和我们的编译器工作。 Resnet50 ⁇ v1 手调 SW-HW 解决方案每秒的图像( 接近) 2倍于我们最佳 FPGA 实施的图像( 吞吐量 ) ; 编译者对手写技术进行概括, 手写技术的性能达到1.5倍以上。 例如, 编译者对网络模型动物园的优化做了概括, 并实现了80° HW 效率 。