在资源受限的环境下,将像BERT这样的预训练Transformer模型部署在下游任务上是具有挑战性的,因为它们的推理成本会随着输入序列长度的增加而迅速增加。在这项研究中,我们提出了一种基于约束感知和排序蒸馏的令牌修剪方法ToP,该方法在输入序列通过各层时选择性地删除不必要的令牌,允许模型在保持精度的同时提高在线推理速度。ToP通过一种排序蒸馏令牌提炼技术克服了传统自注意力机制中令牌重要性排名不准确的限制,该技术将有效的令牌排名从未修剪模型的最后一层蒸馏到修剪模型的早期层。接下来,ToP引入了一种粗糙到精细的修剪方法,这种方法自动选择Transformer层的最佳子集,并通过改进的L0正则化在这些层中优化令牌修剪决策。在GLUE基准测试和SQuAD任务上的大量实验显示,ToP在保持精度的同时,提高了速度,超越了现有最先进的令牌修剪和模型压缩方法。ToP将BERT的平均FLOPs减少了8.1倍,同时在GLUE上保持了竞争性的准确度,并在Intel CPU上提供了高达7.4倍的真实延迟加速。代码在这里可用。