深度和大型的预训练语言模型是各种自然语言处理任务的最新技术。然而,这些模型的巨大尺寸可能会阻碍在实践中使用它们。最近的一些并行工作使用知识蒸馏来将这些庞大的模型压缩成小型模型。在这项工作中,我们以多语言命名实体识别(NER)为重点来研究知识蒸馏。特别地,我们研究了几种提炼策略,并提出了一种利用教师内部表征的阶段性优化方案,该方案不考虑教师体系结构,并证明其优于以往工作中所采用的策略。此外,我们还研究了几个因素的作用,比如未标记数据的数量、注释资源、模型架构和推理延迟等等。我们证明,我们的方法可以将类mbert教师模型的参数压缩高达35倍,批量推理的延迟压缩51倍,而NER超过41种语言的95%的f1分都保留下来。