随着深度学习在移动端的兴起,推理延迟(inference latency)已经成为在各种移动和边缘设备上运行深度神经网络(DNN)模型的一个重要指标。为此,预测DNN模型推理的延迟非常必要,尤其是对于无法在真实设备上测试延迟或者代价太高的任务,例如从巨大的模型设计空间中寻找具有延迟约束的有效的DNN模型。然而,由于不同边缘设备上运行时(runtime)的不同优化导致了模型推理延迟的巨大差异,准确预测推理延迟仍然非常具有挑战性。目前,现有方法无法实现高精度的预测。
https://air.tsinghua.edu.cn/Uploads/UEditor/Files/20210709/6376145008525256118804429.pdf
在本文中,我们提出并开发了 nn-Meter,可高效、准确地预测 DNN 模型在不同边缘设备上的推理延迟。它的关键思想是将整个模型推理划分为内核(kernel),即设备上的执行单元,然后执行内核级预测。nn-Meter 建立在两个关键技术之上:
内核检测:通过一组设计好的测试用例来自动检测模型推理的执行单元; 自适应采样:从大空间中有效地采样最有益的配置,以构建准确的内核级延迟预测器。
我们在三个常用的边缘硬件平台(移动 CPU、移动 GPU 和Intel VPU)上实现了nn-Meter系统、并使用包含26,000个模型的大型数据集进行评估,结果nn-Meter的表现明显优于先前的最好方法。