自然语言处理(NLP)的目标是促进计算机与人类语言之间的通信,使计算机能够处理和分析大量的自然语言数据。语言的层次结构长期以来一直是语义分析的关键方面,并被认为是可以增强NLP任务结果的基础知识。纳入层次结构可以帮助NLP模型理解语言组件之间的关系并有效传达意义。 本论文旨在增强语言模型对文本层次结构的理解。为此,我们建议使用一个深层次的RNN模型,该模型考虑到层次信息并使用潜在指标来表示层次结构。此外,采用了一个层次注意机制来提高模型的性能和可解释性。
为了解决计算复杂性并优化潜在指标,我们提出了各种统计训练方法。我们进一步研究了如何将模型扩展到一个序列到序列的模型,并提供了一个预训练模型的实用方法和一个层次解码方法,以增强其在文本生成任务(如翻译)中的性能。 具体来说,我们的方法包括以下步骤:首先,我们区分显式和隐式的层次信息,并通过使用多尺度RNN和层次注意机制创建一个纳入这两种信息的层次RNN模型。其次,为了进一步改进模型,我们通过期望最大化(EM)算法整合潜在指标,使用Bootstrap抽样方法减少计算复杂性,并实施分层训练以进行更深层次的RNN。第三,我们将层次语言模型扩展到翻译任务的层次序列到序列模型。为了克服在生成过程中潜在指标的不稳定性,我们使用遮罩训练来预训练序列到序列模型,并提议一个结合遮罩预测和层次信息的层次解码方法。
此外,我们通过在各种NLP任务中的表现展示了我们方法的优越性。我们的方法达到了与大型语言模型相当的结果,同时提供了更高的可解释性。