联邦学习旨在在不牺牲本地数据隐私的情况下,从多个分散的边缘设备(例如移动设备)或服务器中学习机器学习模型。最近的自然语言处理技术依赖于深度学习和大型预训练语言模型。然而,大型深度神经模型和语言模型都是用大量数据训练的,这些数据通常位于服务器端。由于文本数据广泛来自最终用户,在这项工作中,我们研究了最近使用联邦学习作为学习框架的 NLP 模型和技术。我们的综述讨论了联邦自然语言处理的主要挑战,包括算法挑战、系统挑战以及隐私问题。我们还对现有的联邦 NLP 评估方法和工具进行了严格审查。最后,我们强调了当前的研究差距和未来的方向。
https://www.zhuanzhi.ai/paper/a7798d2845ab5942e6e095b0be202d08