论文针对现有跨语言命名实体识别方法主要使用源语言数据和翻译数据的局限性,提出充分利用目标语言的大规模无标签数据提升迁移性能。作者基于半监督学习和强化学习方法,提出RIKD模型,首先通过在目标语言无标签数据上迭代知识蒸馏,不断获得更高效的学生模型。其次,为了降低蒸馏过程中教师模型的推理错误和低质量数据带来的噪声,设计了一个基于强化学习的样本选择器,动态选择信息量更大的样本进行蒸馏。实验结果表明,RIKD在基准数据集和内部数据集上显著优于现有最优模型。
https://www.zhuanzhi.ai/paper/18a3b87ee49058589b9acb0098a3ab42