导读:本文将参考上述综述论文,从预训练语言模型应用于文本生成任务的三个挑战出发:
如何对输入数据进行编码并保持语义,使其与预训练语言模型进行融合; 如何设计通用且合适的预训练语言模型架构,使其作为生成函数; 如何优化生成函数,并保证生成文本满足特殊属性。 并详细列举目前每个挑战下的研究进展。
文本生成是目前自然语言处理领域一项非常重要但具有挑战性的任务,它的目的是希望生成可读的自然语言文本,比较有代表性的应用,例如对话系统、文本摘要和机器翻译等。
目前,深度神经模型在文本生成研究中已取得重大进展,其优势在于深度神经网络可以端到端地学习输入数据到输出文本的语义映射,而不需要人工参与进行特征工程。但是,深度神经模型往往具有大量的参数,而大部分文本生成任务数据集都非常小,因此深度神经网络非常容易在这些数据集上过拟合,导致其无法在实际应用中进行泛化。
随着预训练语言模型(Pretrained Language Models, PLMs)范式的蓬勃发展,越来越多的研究将其运用到各种自然语言处理任务中以取得SOTA效果,例如BERT解决语言理解和GPT解决语言生成。通过在大规模语料集上进行预训练,预训练语言模型可以准确地理解自然语言并以自然语言的形式流畅表达,这两项都是完成文本生成任务的重要能力。