摘要: 我们研究了循环神经网络在学习规则形式语言时的内部表示。具体来说,我们训练一个RNN从一种普通语言的正反例子,并查寻是否有一个简单的解码函数,将这个RNN的状态映射到该语言的最小确定性有限自动机(MDFA)的状态。我们的实验表明,这种译码函数确实存在,并且它不是将RNN的状态映射到MDFA状态,而是将小组MDFA状态聚类成超状态得到的抽象状态。定性分析表明,抽象通常有一个简单的解释。总的来说,研究结果表明,RNNs使用的内部表征与有限自动机之间存在很强的结构关系,并解释了众所周知的RNNs识别形式语法结构的能力。