神经序列标记被广泛应用于许多自然语言处理(NLP)任务,如命名实体识别(NER)和用于对话系统和语义分析的槽标记。最近,大规模的预训练语言模型在这些任务中显示出了显著的成功,只要对大量特定任务的标记数据进行微调。然而,获取这样大规模的标记训练数据不仅代价昂贵,而且由于数据访问和隐私限制,在许多敏感用户应用中可能不可行。如果序列标记任务需要在标记级进行这样的注释,这种情况就会加剧。在这项工作中,我们提出以解决标签短缺的神经序列标记模型。具体来说,我们提出了一个元自训练框架,它利用很少的手工标注标签来训练神经序列模型。自训练是一种通过迭代知识交换从大量无标记数据中学习的有效机制,而元学习有助于自适应样本重加权,以减少噪声伪标记带来的误差传播。在6个基准数据集上的大量实验表明了该方法的有效性,其中包括2个用于大规模多语言NER的基准数据集和4个用于面向任务的对话系统的槽标记数据集。在每个任务中,每个类别只有10个标注的例子,该方法比目前最先进的方法提高了10%,证明了其在有限的训练标签体系中的有效性。
https://www.microsoft.com/en-us/research/uploads/prod/2020/10/MetaST_Few_shot_KDD_2021.pdf