在资源受限的情况下,在下游任务上部署像BERT这样的预训练transformer模型是具有挑战性的,因为它们的推断成本很高,并且随着输入序列长度的增加而迅速增长。在这项工作中,我们提出了一个考虑约束的、排序蒸馏的令牌修剪方法ToP,该方法在输入序列通过各层时有选择性地移除不必要的令牌,使模型在保持准确性的同时提高在线推断速度。ToP通过一个排序蒸馏的令牌提取技术克服了传统自注意力机制中令牌重要性排序不准确的限制,该技术从未修剪的模型的最后一层提取有效的令牌排序,应用到被修剪模型的早期层。接着,ToP引入了一种粗到细的修剪方法,自动选择transformer层的最佳子集,并通过改进的𝐿0正则化在这些层内优化令牌修剪决策。在GLUE基准测试和SQuAD任务上的大量实验表明,ToP在准确性和速度上都超过了最先进的令牌修剪和模型压缩方法。ToP使BERT的平均FLOPs减少了8.1倍,同时在GLUE上达到了竞争性的准确率,并在Intel CPU上提供了高达7.4倍的实际延迟加速。