神经语言模型是由神经网络参数化的文本的概率模型。它们广泛适用于输出由离散序列组成的应用程序,例如文档摘要、问答和图像字幕生成。关于数据的最小假设使得语言建模的进步可以推动在各种各样的应用中的改进。在自然语言中,结构既普遍又重要。例如,一本书被组织成章节,它们之间有逻辑的联系;没有这种结构,书就会失去连贯性。因此,有效地理解和建模文本序列需要理解和表示其中的内在结构。这篇论文侧重于语言模型的结构建模。论文分为两个主要部分:语言模型的结构分析和结构建模技术。第一部分研究了语言模型生成中各种结构方面的建模,包括节段转换结构、共指结构和主题相关性结构。强调了对这些组成部分的全面理解的必要性,论文在结构水平评估语言模型的性能。通过采用一个评估机器生成文本中高级连贯性的统计框架,研究揭示了即使是大型语言模型在捕捉话语连贯性和共指方面也存在局限性。此外,研究还表明,表面级别建模的改进并不一定保证更好的结构建模。论文的第二部分介绍了各种旨在改进或定制语言模型的结构建模技术。这些技术分为三类:分解结构建模、分层结构建模和全局结构建模。它们可以提高语言模型的结构连贯性、透明度、计算效率和数据效率。总之,这项研究深入探讨了语言模型的结构分析和建模技术。通过开发各种结构分析方法和建模方法,论文旨在加深对语言模型在表示结构方面的能力的理解和改进。所提出的技术有潜力在广泛的应用领域提高语言模型的性能,最终推动不仅自然语言生成,还包括输出空间包含离散序列的其他领域,如计算机视觉、机器人技术和基因组学。https://dash.harvard.edu/handle/1/37375813