题目: Emergence of Separable Manifolds in Deep Language Representations
摘要:
人工神经网络(ANNS)在解决不同认知模式的感知任务方面显示出了很多经验上的成功。虽然它们只是受到了生物大脑的启发,但最近的研究报告显示,从任务优化的神经网络中提取的表征与大脑中的神经群体有相当大的相似性。ANNS随后成为了一个流行的模型类,用来推断复杂认知功能背后的计算原理,反过来,它们也成为了一个天然的实验平台,用于应用最初开发用来探测神经群体信息的方法。在这项工作中,我们利用计算神经科学的一项最新技术——平均场理论流形分析,来分析来自大规模上下文嵌入模型的语言表征的高维几何。我们探索了来自不同模型族(BERT、RoBERTa、GPT-2等)的表示,并找到了跨层深度出现语言歧形的证据(例如,词性和组合范畴语法标签的歧形)。我们进一步观察到,用于获得表示的不同编码方案导致了这些语言流形是出现在网络的早期层还是后期层中的差异。此外,我们发现在这些流形中线性可分性的出现是由流形半径、维数和流形间相关性的联合降低驱动的。