随着神经网络语言模型的广泛应用,深入理解其内部运行机制的需求日益迫切。本论文旨在揭示大型语言模型(LLMs)内部潜在计算规律,为未来强大AI系统的监测、控制和对齐奠定理论基础。基于开源语言模型,我们重点探索了四个关键领域:神经元层面的概念编码、模型初始化间学习特征的普适性、时空表征的存在性,以及基础动力系统建模。第二章改进了最优稀疏分类方法在神经网络探测中的应用,通过这种稀疏探测技术,我们在全尺寸LLMs中同时发现了单语义神经元(专一编码单一概念)和多语义神经元(叠加表征多个概念),验证了简化模型的预测。第三章通过计算大数据集上神经元激活的成对相关性,系统识别并分类了不同模型初始化间的普适性神经元。研究发现1-5%的神经元具有普适性特征,这些神经元往往具有明确的可解释性,我们将其划分为不同的神经元家族。为探究时空表征特性,第四章通过精心构建的现实世界实体数据集分析LLMs激活模式。研究发现模型能够学习多尺度的线性时空表征,这些表征对提示变化具有鲁棒性,且在不同实体类型间保持统一。我们识别出专门编码空间坐标的"空间神经元"和时间坐标的"时间神经元"。第五章采用最优稀疏回归技术改进了非线性动力系统稀疏识别(SINDy)框架,在典型微分系统中实现了样本效率和支持恢复率的提升。基于此改进,我们进一步研究了LLMs在上下文学习中表征动力系统的能力,发现了跟踪底层系统状态的内部表征。