当我们说话、写作或聆听时,我们不断地基于对语言语法的知识进行预测。令人惊讶的是,儿童仅仅在几年内便能掌握这种语法知识,使得他们能够理解并将这种知识推广到从未说过的新结构中。语言模型是强大的工具,它们通过逐步预测句子中的下一个词来构建语言的表示,并且在近年来对社会产生了巨大影响。本文的核心研究问题是,这些模型是否拥有类似于人类的深刻语法结构理解。这个问题位于自然语言处理、语言学和可解释性研究的交叉点。为了回答这个问题,我们将开发新的可解释性技术,以加深我们对大规模语言模型复杂本质的理解。我们将从三个方向来探索这个研究问题。首先,我们通过结构性启动(structural priming)这一心理语言学中的关键范式,探索抽象语言信息的存在,这一范式可以揭示人类语言处理中的语法结构。接下来,我们考察各种语言现象,如形容词顺序和否定极性项目,并将模型对这些现象的理解与其训练数据分布进行关联。最后,我们引入一个受控的测试平台,用于研究语言模型中的层级结构,采用各种逐步增加复杂度的合成语言,并考察特征交互在建模这些结构中的作用。我们的研究结果提供了关于语言模型表示中蕴含的语法知识的详细描述,并为使用计算方法研究基本语言学问题提供了若干方向。