自动化所团队揭示多尺度动态编码,助力脉冲网络实现高效强化学习

2021 年 12 月 13 日 中国科学院自动化研究所




CASIA


解锁更多智能之美


导读 | 自动化所类脑智能研究中心徐波、张铁林团队从生物高效编码角度出发,提出一种多尺度动态编码方法提升脉冲人工网络(MDC-SAN)模型,并应用于强化学习以实现高效决策相关工作被AAAI 2022接收。


在深度神经网络 (Deep Neural Network,DNN) 的帮助下,深度强化学习在许多复杂任务上取得了巨大成功,如游戏或机器人控制等。然而,深度强化学习方式与已知的生物强化学习方式仍然相差甚远。比如,生物中更多的利用群编码或具有复杂动力学的脉冲神经元来编码,并利用具有生物合理的可塑性学习规则来进一步形成复杂的认知功能。

近期,自动化所类脑智能研究中心徐波、张铁林团队通过将生物系统中多尺度信息的高效编码、细胞集群的时空信息整合机制加入到脉冲神经网络中来,在多类强化学习任务中取得了超过深度强化学习的突出表现。

团队在类脑脉冲神经网络(Spiking Neural Network,SNN)的研究方面积累丰富,曾提出包括自组织反向传播算法[Science Advances 2021]、奖赏反馈传播算法[IEEE TNNLS 2021]等在内的一系列脉冲网络高效优化方法。与 DNN 相比,SNN 具有更强的生物合理性,可以支持更多生物学习法则、生物网络结构的启发式应用。因此,团队仍然选择在SNN上加入更复杂的、大脑启发的多尺度动态编码机制,包括网络尺度和神经元尺度,来进一步增强信息的高维状态表征能力,使其在更复杂的弱监督强化学习任务中发挥优势。

多尺度动态编码提升的脉冲神经网络MDC-SAN; 图1)模拟了生物大脑中的细胞集群编码机制,并建模网络尺度的群体编码和神经元尺度的二阶动态神经元编码,用于高阶脉冲式的状态表征。经典的策略梯度算法TD3被用来优化MDC-SAN网络,同时为了更好的奖赏学习,在训练学习过程中引入了高精度人工深度Critic网络进行混合训练,并在测试过程中去掉Critic网络。

团队在四个标准OpenAI Gym连续动作空间的学习任务上评估训练好的MDC-SAN,包括Ant-v3、HalfCheetah-v3、Walker2d-v3 和 Hopper-v3。实验结果表明,多尺度动态编码,包括群体编码和二阶动态神经元的复杂时空编码,都有助于提高 MDC-SAN 的性能。且在相同的参数配置和TD3框架下,取得了优于DNN强化学习的表现(图2)。

相关工作Multi-scale Dynamic Coding improved Spiking Actor Network for Reinforcement Learning于今年12月被AAAI 2022接收。博士生张笃振作为第一作者,徐波研究员和张铁林副研究员(共同一作)作为通讯作者,博士生贾顺程参与了部分实验结果的可视化工作。相关工作属于“类脑脉冲神经网络模型与系统”2035创新任务,得到了国家自然科学基金委、先导B等项目的资助。


图1 MDC-SAN模型整体框架


图2 MDC-SAN结果优于传统深度学习方法(DAN,Pop-DAN)和传统脉冲网络方法(LIF)








相关阅读

点击即可查看

自动化所Science Advances发文揭示介观自组织反向传播机制助力AI学习

自动化所提出类脑奖赏传播调控用于脉冲卷积网络学习,验证生物计算的简洁性、高效性









欢迎后台留言、推荐您感兴趣的话题、内容或资讯!

如需转载或投稿,请后台私信。

登录查看更多
0

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【ICLR2022】通过传播网络编码学习通用的神经结构
专知会员服务
12+阅读 · 2022年2月13日
【AAAI2022】受限评委下双执行者的高效连续控制
专知会员服务
16+阅读 · 2021年12月22日
专知会员服务
22+阅读 · 2021年9月25日
专知会员服务
58+阅读 · 2021年9月20日
专知会员服务
15+阅读 · 2021年3月4日
【Nature通讯】深度神经网络模型中的个体差异
专知会员服务
13+阅读 · 2020年11月16日
专知会员服务
43+阅读 · 2020年11月13日
【Nature论文】深度网络中的梯度下降复杂度控制
专知会员服务
38+阅读 · 2020年3月9日
自动化所Science Advances发文揭示介观自组织反向传播机制助力AI学习
中国科学院自动化研究所
1+阅读 · 2021年10月21日
当深度强化学习遇见图神经网络
专知
224+阅读 · 2019年10月21日
脉冲神经网络(SNN)概述
人工智能前沿讲习班
60+阅读 · 2019年5月30日
类脑计算的前沿论文,看我们推荐的这7篇
人工智能前沿讲习班
21+阅读 · 2019年1月7日
【团队新作】深度强化学习进展: 从AlphaGo到AlphaGo Zero
中国科学院自动化研究所
16+阅读 · 2018年1月31日
前沿 | 简述脉冲神经网络SNN:下一代神经网络
机器之心
36+阅读 · 2018年1月13日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月17日
Arxiv
19+阅读 · 2018年3月28日
VIP会员
相关VIP内容
【ICLR2022】通过传播网络编码学习通用的神经结构
专知会员服务
12+阅读 · 2022年2月13日
【AAAI2022】受限评委下双执行者的高效连续控制
专知会员服务
16+阅读 · 2021年12月22日
专知会员服务
22+阅读 · 2021年9月25日
专知会员服务
58+阅读 · 2021年9月20日
专知会员服务
15+阅读 · 2021年3月4日
【Nature通讯】深度神经网络模型中的个体差异
专知会员服务
13+阅读 · 2020年11月16日
专知会员服务
43+阅读 · 2020年11月13日
【Nature论文】深度网络中的梯度下降复杂度控制
专知会员服务
38+阅读 · 2020年3月9日
相关资讯
自动化所Science Advances发文揭示介观自组织反向传播机制助力AI学习
中国科学院自动化研究所
1+阅读 · 2021年10月21日
当深度强化学习遇见图神经网络
专知
224+阅读 · 2019年10月21日
脉冲神经网络(SNN)概述
人工智能前沿讲习班
60+阅读 · 2019年5月30日
类脑计算的前沿论文,看我们推荐的这7篇
人工智能前沿讲习班
21+阅读 · 2019年1月7日
【团队新作】深度强化学习进展: 从AlphaGo到AlphaGo Zero
中国科学院自动化研究所
16+阅读 · 2018年1月31日
前沿 | 简述脉冲神经网络SNN:下一代神经网络
机器之心
36+阅读 · 2018年1月13日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员