大脑带来的启发：深度神经网络优化中突触整合原理介绍

2022 年 7 月 30 日 机器之心

编辑 | 萝卜皮

众所周知，大脑中的可塑性回路通过突触整合和突触强度的局部调节机制受到突触权重分布的影响。然而，迄今为止设计的大多数人工神经网络训练算法都忽略了刺激依赖性可塑性与局部学习信号的复杂相互作用。

在这里，IBM 研究院的研究人员，提出了一种新的受生物学启发的人工和尖峰神经网络优化器，该优化器结合了在皮质树突中观察到的突触可塑性的关键原则：GRAPES（Group Responsibility for Adjusting the Propagation of Error Signals）。GRAPES 在网络的每个节点上实现了与权重分布相关的误差信号调制。

研究表明，这种受生物学启发的机制可以显着提高具有前馈、卷积和循环架构的人工和尖峰网络的性能，它可以减轻灾难性遗忘，并且最适合专用硬件实现。总而言之，将神经生理学见解与机器智能相协调是提高神经网络性能的关键。

该研究以「Introducing principles of synaptic integration in the optimization of deep neural networks」为题，于 2022 年 4 月 7 日发布在《Nature Communications》。

人工神经网络 (ANN) 在 1940 年代首次提出，作为哺乳动物大脑神经回路的简化计算模型。随着计算能力的进步，人工神经网络偏离了它们最初受到启发的神经生物学系统，并重新定位于目前广泛应用中使用的计算技术的发展。在提出的用于训练多层神经网络的各种技术中，反向传播 (BP) 算法已被证明是一种有效的训练方案。尽管机器智能取得了令人瞩目的进步，但人工神经网络的潜力与大脑计算能力之间的差距仍有待缩小。

人工神经网络的基本问题，如训练时间长、灾难性遗忘和无法利用日益增加的网络复杂性，不仅需要处理人类大脑的能力，还需要提高日常使用设备的性能。例如，减少机器人应用程序中在线学习的训练时间对于确保机器人代理快速适应新环境并降低与训练相关的能源成本至关重要。已经提出了几种技术，例如批量归一化、层归一化和权重归一化，以加速 ANN 的训练。这些方法虽然成功地提高了收敛速度，但距离生物大脑的学习能力还差得很远。

与哺乳动物的神经回路相比，人工神经网络在大脑方面的局限性很大程度上归因于其结构和动力学的大幅简化。对大脑功能至关重要的几种机制，包括突触整合和体重强度的局部调节，通常不在基于 BP 的人工神经网络训练中建模。

克服这一限制可能是使人工网络的性能更接近动物智能的关键。突触整合是神经元在产生动作电位 (AP) 之前结合数千个突触前神经元接收到的尖峰序列的过程。轴突 AP 在细胞的轴突中被引出，作为对从细胞树突接收到的输入的响应，并充当神经元的整体输出信号。

实验证据表明，至少在 CA1 细胞中，由于树突的活跃特性，来自不同突触前神经元的输入信号到达同一突触后细胞可能与非线性动力学相互作用。具体而言，当在树突分支中发生强去极化时，在该区域中引发树突AP。树突状 AP 会提高产生它的兴奋性突触后电位（EPSP）总和的幅度，从而在树突状输入到达胞体之前放大树突状输入以引发轴突 AP。树突尖峰的产生需要空间上连接到同一分支的足够多的突触前细胞在时间上以足够的突触强度活跃。

因此，突触输入影响突触后神经元输出的能力取决于它们在树突树中的位置。神经元强大的计算能力被认为源于源自树突尖峰的复杂非线性动力学。下图表明了这种机制，并显示了每个突触前神经元的影响如何还取决于通过其他突触前连接传递到同一突触后神经元的信号。因此，局部权重分布可以负责提升特定节点的输入信号。与大脑中的神经元类似，ANN 中的节点接收来自许多细胞的输入并产生单个输出。

研究人员可以将人工节点的激活与轴突 AP 联系起来，但树突 AP 的机制并没有严格地转化为点神经元的动力学。然而，树突尖峰受到树突分支内突触强度分布的强烈影响。类似地，人工节点的非线性动力学受到进入一层节点的突触权重分布的影响。令人惊讶的是，在人工神经网络的常见训练方法中，缺乏考虑每个节点权重分布的机制。

图示：生物和人工网络中的突触强度分布。（来源：论文）

此外，大脑中的突触可塑性主要由局部信号驱动，例如邻近神经元的活动。突触之间的局部相互作用在调节学习过程中的体重变化中起着至关重要的作用。在这种情况下，异突触竞争机制允许通过限制连接到相同突触前或突触后神经元的突触的总强度来调节突触生长。这种现象发生在每个神经元的突触之间的非线性竞争。

受非线性突触整合和局部突触强度调节的生物学机制的启发，IBM 研究院和苏黎世大学的研究人员提出了 GRAPES（调整错误信号传播的组责任），这是一种用于 ANN 和 SNN 训练的新型优化器。GRAPES 依赖于节点重要性的新概念，该概念将网络中每个节点的责任量化为层内局部权重分布的函数。

图示：调制因子的计算。（来源：论文）

应用于基于梯度的优化算法，GRAPES 提供了一种简单有效的策略来动态调整每个节点的误差信号并增强最相关参数的更新。与动量等优化器相比，该方法不需要存储先前步骤的参数，避免了额外的内存损失。这个特性使得 GRAPES 在生物学上比基于动量的优化器更合理，因为神经回路不能保留来自先前状态的大部分信息。

研究人员在五个静态数据集（MNIST、CIFAR-10、CIFAR-100、Fashion MNIST 和 Extended MNIST）上使用 ANN 以及在时间速率编码的 MNIST 上使用 SNN 验证了该方法。他们成功地将 GRAPES 应用于监督学习的不同训练方法，即 BP、FA 和 DFA，以及不同的优化器，即 SGD、RMSprop 和 NAG。研究人员证明了所提出的基于权重的调制可以在 ANN 和 SNN 中带来更高的分类精度和更快的收敛速度。之后，他们展示了 GRAPES 解决了 ANN 的主要限制，包括缓解性能饱和以增加网络复杂性和灾难性遗忘。

图示：减轻灾难性遗忘。（来源：论文）

研究人员认为这些属性源于这样一个事实，即 GRAPES 有效地将与对当前输入的响应相关的误差信号信息以及网络内部状态的信息相结合，而与数据样本无关。事实上，GRAPES 丰富了基于输入驱动责任的突触更新，并通过依赖于网络驱动责任的调制来丰富突触更新，这表明节点对网络输出的潜在影响，独立于输入。

这样的训练策略赋予了用 GRAPES 训练的网络在较少数量的 epoch 中实现收敛的能力，因为训练不限于仅取决于所提供的训练样本的信息。出于同样的原因，无论是在学习任务上进行测试，还是在持续学习场景中呈现未见过的任务时，这种网络都比 SGD 表现出更好的泛化能力。

在这种情况下，研究人员确定了大脑中可塑性类型的并行性。响应神经元活动的突触强度变化是由两种形式的可塑性相互作用引起的：同突触和异突触。同突触可塑性发生在输入诱导期间活跃的突触处，因此是输入特定和关联的，作为输入驱动的责任。

相反，异突触可塑性涉及不被突触前活动激活的突触，并作为在同突触变化后稳定网络的附加机制。因此，与网络驱动的责任类似，异突触可塑性并不表现出严格的输入特异性。

该团队的算法似乎与现有的归一化方案和赢家通吃计算原语有一定的相似性。然而，由于 GRAPES 依赖于网络驱动责任的概念，它的主要计算是基于突触强度而不是突触活动。此外，以前的工作已经考虑到神经元传达突触强度的可能性。例如，2010 年 Ila R. Fiete 团队提出了异突触长期抑制的总权重限制规则：当进入（或离开）一个神经元的突触的总权重超过限制时，该神经元的所有传入（或传出）突触都会被削弱。这种机制意味着突触将有关突触权重值的信息传递给突触后节点，并且此类信息用于以非局部方式调节突触权重。

第二个例子是 Kenneth D. Harris 和 Sarah N. Lewis 提出的轴突信号和神经市场理论。实验证据表明，神经元能够通过称为神经营养因子的分子携带轴突后信号，这些分子可以编码突触强度及其时间导数的信息。这些信息用于促进或阻碍突触权重变化的巩固。神经市场理论建立在轴突信号机制的基础上，并提出了大脑中神经元网络如何自组织成功能网络的模型。神经市场理论和 GRAPES 算法都依赖于关于权重及其变化的信息的传播，因此这两个框架存在一些类比。

首先，轴突后信号通过调节突触更新来控制突触的可塑性。类似地，GRAPES 中使用重要性向量来调节 BP 规定的权重变化。其次，携带体重强度和体重变化信息的轴突后信号传播缓慢；同样，GRAPES 中的信息仅在每批之后应用。第三，通过神经营养因子传播的信息和 GRAPES 中的重要性都不依赖于梯度。最后，Sarah N. Lewis 的理论引入了细胞价值的概念，它衡量了细胞输出的有用性，并被定义为如果细胞死亡，网络性能的恶化。

如果一个细胞的所有传入连接都为零，则该细胞被灭活，因此一个细胞的价值与该细胞的传入突触的强度有关。因此，value 可以与 GRAPES 中节点重要性的概念相关。

总之，GRAPES 的基本思想受到节点重要性、误差调制和重量强度通信的概念的启发，这些概念得到了研究树突整合、突触缩放和轴突后信号作用的实验的支持。虽然生物学灵感基于这些机制，但只有类似 GRAPES 的可塑性调制的高级概念与神经回路中观察到的可塑性调制原理兼容。

GRAPES 的好处源于对误差信号的调整。调制因子的非均匀分布，加上向上游层的传播，使得 GRAPES 在训练期间能够极大地增强突触更新的子集。因此，与 SGD 相比，小群突触能够在更大程度上增强或减弱。

从初步调查来看，GRAPES 似乎将网络权重传递给更具生物学合理性的分布，特别是重尾分布。IBM 研究院的研究人员认为 GRAPES 所展示的特性可能源于这种重量分布。该团队正在进行的工作目前正在寻求对这一现象的更全面的了解。

值得注意的是，他们的结果表明，GRAPES 提供了一种有前途的策略，可以减轻由硬件相关约束（例如噪声和精度降低）引起的性能下降。这些约束在许多方面反映了生物电路，因为突触传递受噪声影响并且神经信号被量化。有趣的是，GRAPES 保留了与生物过程的许多相似之处。因此，该团队认为 GRAPES 的生物学机制可能在克服与硬件相关限制相关的限制方面发挥核心作用。

此外，他们认为这种受大脑启发的特征是 GRAPES 对生物启发模型的好处的根源。已经证明，GRAPES 不仅改进了标准 ANN 的基于 BP 的训练，而且还显着提高了使用生物学上合理的信用分配策略（例如 FA 和 DFA）训练的网络以及依赖于尖峰神经元动态的网络的性能。

图示：尖峰神经网络实验。（来源：论文）

FA 算法和 SNN 模型都是弥合生物学合理性和机器学习的关键步骤。然而，在现阶段，与使用 BP 训练的 ANN 相比，它们只能取得有限的性能。例如，如结果部分所示，与 BP 相比，FA 和 SNNs 方法的准确性和收敛速度都较低，并且 SNNs 训练受到网络复杂性和超参数变化的严重影响。由于对误差信号的有效调制增强了最重要参数的更新，GRAPES 减少了此类限制的影响，从而缩小了仿生算法与标准 ANN 性能之间的差距。

总而言之，该团队的研究结果表明，在神经网络优化中结合 GRAPES 和更普遍的受大脑启发的局部因素，为生物启发学习算法的性能和新型神经形态计算技术的设计的关键进展，铺平了道路。

数据地址：https://github.com/IBM/GRAPES

论文链接：https://www.nature.com/articles/s41467-022-29491-2

人工智能 × [ 生物神经科学数学物理材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。

欢迎关注标星，并点击右下角点赞和在看。

点击阅读原文，加入专业从业者社区，以获得更多交流合作机会及服务。

登录查看更多

相关内容

人工神经网络

关注 130

人工神经网络（Artificial Neural Network，即ANN），它从信息处理角度对人脑神经元网络进行抽象，建立某种简单模型，按不同的连接方式组成不同的网络。在工程与学术界也常直接简称为神经网络或类神经网络。神经网络是一种运算模型，由大量的节点（或称神经元）之间相互联接构成。每个节点代表一种特定的输出函数，称为激励函数（activation function）。每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重，这相当于人工神经网络的记忆。网络的输出则依网络的连接方式，权重值和激励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近，也可能是对一种逻辑策略的表达。

综述：基于进化和物理启发建模的计算蛋白设计

专知会员服务

16+阅读 · 2022年9月12日

【Nature.Com】领导式联邦神经形态学习的无线边缘人工智能

专知会员服务

31+阅读 · 2022年8月7日

【硬核书】机器人中的大脑和认知智能控制，110页pdf

专知会员服务

66+阅读 · 2022年6月6日

【斯坦福】基于模型的深度学习:论深度学习与优化的交集

专知会员服务

45+阅读 · 2022年5月10日