深度神经网络(DNNs)在许多计算机视觉任务中是成功的。然而,最精确的DNN需要数以百万计的参数和操作,这使得它们需要大量的能量、计算和内存。这就阻碍了大型DNN在计算资源有限的低功耗设备中的部署。最近的研究改进了DNN模型,在不显著降低精度的前提下,降低了内存需求、能耗和操作次数。本文综述了低功耗深度学习和计算机视觉在推理方面的研究进展,讨论了压缩和加速DNN模型的方法。这些技术可以分为四大类:(1)参数量化和剪枝;(2)压缩卷积滤波器和矩阵分解;(3)网络结构搜索;(4)知识提取。我们分析了每一类技术的准确性、优点、缺点和潜在的问题解决方案。我们还讨论了新的评价指标,作为今后研究的指导。