反向传播(Backpropagation, BP) 是训练深度神经网络的标准算法,这些网络支撑了包括大语言模型在内的现代人工智能系统。然而,BP 在能耗方面效率较低,并且不太可能是大脑所采用的学习机制。本论文研究一种替代的、潜在更高效的受大脑启发的算法——预测编码(Predictive Coding, PC)。与 BP 不同,预测编码网络(Predictive Coding Networks, PCNs)在学习或权重更新之前,会通过迭代平衡神经元活动来执行推理。 近年来的研究表明,这种迭代推理过程相比 BP 具有一系列潜在优势,例如更快的训练速度。然而,这些优势尚未被一致地验证;PCN 的推理与学习动态仍缺乏深入理解;而深层 PCN 在实践中依然难以训练。 在本论文中,我们基于优化理论(optimization theory)提出了一种理论方法,向可扩展 PCN 迈出了重要一步。 首先,我们证明了 PC 的学习动态可以理解为一种利用二阶信息的近似信赖域方法(approximate trust-region method),尽管其在显式上仅使用一阶的局部更新。 其次,超越这一近似,我们进一步证明,原则上 PC 能够利用任意高阶信息,因此对于全连接网络而言,PC 所学习的“有效损失景观”要比(均方误差)损失景观更加平滑、良性,并且对梯度消失问题更具鲁棒性。 第三,受对 PCN 推理动态研究的启发,我们提出了一种新的参数化方法,称为 “μPC”,它首次实现了100 层以上深度网络的稳定训练,且几乎无需调参,并在简单分类任务中表现出有竞争力的性能。 此外,我们还发布了一个用于在 JAX 框架中训练 PCN 的开源 Python 库。总体而言,本论文显著推进了我们对 PCN 推理与学习动态的基础理解,同时强调了若要使 PC 在大规模上与 BP 竞争,未来研究需要聚焦于硬件协同设计(hardware co-design)以及更具表现力的网络结构(more expressive architectures)。