大脑也在强化学习!加州大学提出「价值决策」被大脑高效编码,登Neuron顶刊

2021 年 11 月 26 日 新智元




  新智元报道  

编辑:David

【新智元导读】人和动物的决策离不开大脑,大脑决策要靠「价值信息」。一项新研究揭示了这类关键信息更新和编码的详细机制,实验表明,它们被编入一个资源库,可以持久保存,长期调用。

我们每个人的一生都要做出大量的决定,小到「今天晚上吃什么」、「明天放假去哪里玩」,大到「这次战役怎么打」、「这部法律如何制定」。
 
这些决定的结果,要由决策者的大脑来给出最终裁决。
 
所以,大脑中负责这类「裁决」的关键区域,成为科学家们关注的重点。
 
2019 年,加州大学圣地亚哥分校的研究人员就发现了做出「价值决策」的大脑区域。
 
 
他们发现,这个区域被称为脾后皮层 (RSC),是用来做出「有价值的选择」的地方,比如决定今晚去哪家餐厅吃饭。然后,根据对今晚饭菜的喜好程度的新印象,用最新信息来更新RSC。
 
毕竟,只有及时更新信息,才能让大脑做出最正确的决策。
 
现在,这个团队在这个问题上又有新进展。该校生物科学系博士后 Ryoma Hattori 和 Takaki Komiyama 教授领导的新研究,揭示了大脑处理此类动态更新信息的详细机制。
 
 
近日发表在Neuron期刊上的论文结果表明,RSC中的更新信息可以持久保存,就像一个可调用的资源库。
 
这些「持久信息」可以最有效地表示或「编码」有价值的信号,能够跨越大脑的不同区域。

 
为了研究大脑活动如何表示基于价值的决策的细节,研究人员设置了强化学习实验。价值决策是人类大脑的关键机制,在精神分裂症、痴呆和成瘾等神经系统疾病中常常受损。
 
在实验中,研究人员小鼠提供了多个选项,对小鼠的选择以一定的概率奖励,并记录在强化学习过程中的相应大脑活动。

 
由此产生的数据和网络模拟指出了持续编码在如何表示老鼠及其价值决定方面的重要性,以及 RSC 作为这项活动的纽带。
 
研究人员在论文中解释说:「这些结果表明,尽管信息编码是高度分布的,但并非所有神经活动中表示的信息都可以在每个区域中使用。这些结果表明,依赖于上下文的持久性信息,促进了可靠的信号编码,扩大了信息在大脑中的分布。」
 
研究人员发现,信息的持久性,可以让价值信号在大脑的不同区域得到最高效的编码,尤其是在脾后皮层中。图片来源:加州大学圣地亚哥分校 Komiyama 实验室
 
研究团队成员,论文作者之一Hattori表示,众所周知,神经元会在不同的活动模式中循环,一些神经元的活动会激增,而另一些则保持沉默。

 
Ryoma Hattori
 
这些大脑活动模式已被证明与某些与任务相关的信息相关,例如决策的价值信息。由于 RSC 在连接多个大脑网络和功能方面发挥着核心作用,此次新发现进一步强化了2019年的成果。
 
“我们认为在小鼠大脑中,RSC的作用是价值信息的稳定储存库,当老鼠进行强化学习和决策时,RSC 会将价值信息分发到其他大脑区域,这些区域对于进一步处理价值信号至关重要。”
 
为了进一步测试他们的发现,Hattori 和 Komiyama 使用了他们在实验期间记录的超过 100000 次小鼠决策的「大数据」库。
 
研究人员对人工智能 (AI) 网络进行编程,模仿基于计算机的强化试验中的行为策略,得到了与现实世界的实验非常相似的结果。
 
Takaki Komiyama
 
「当我们训练AI做同样的行为时,它采用了相同的策略和相同的方式来表示神经活动中的信息,」Komiyama 说
 
「这表明,我们的发现确实是神经回路执行这种行为的选择策略。AI和小鼠之间的这种相似性真的很有趣。」

参考资料:

https://neurosciencenews.com/value-decision-encoding-19695/
https://www.cell.com/cell/pdf/S0092-8674(19)30446-5.pdf
https://www.cell.com/neuron/pdf/S0896-6273(21)00891-6.pdf


登录查看更多
0

相关内容

 100页!IEEE标准协会《脑机接口神经技术标准路线图》
专知会员服务
32+阅读 · 2022年2月13日
【Nature通讯】深度神经网络模型中的个体差异
专知会员服务
13+阅读 · 2020年11月16日
【康奈尔】最新《强化学习基础》CS 6789课程
专知会员服务
67+阅读 · 2020年9月27日
【CIKM2020】学习个性化网络搜索会话
专知会员服务
14+阅读 · 2020年9月20日
多智能体深度强化学习的若干关键科学问题
专知会员服务
188+阅读 · 2020年5月24日
【强化学习】深度强化学习初学者指南
专知会员服务
179+阅读 · 2019年12月14日
自动化所团队揭示多尺度动态编码,助力脉冲网络实现高效强化学习
中国科学院自动化研究所
0+阅读 · 2021年12月13日
深入理解强化学习,看这篇就够了
PaperWeekly
5+阅读 · 2021年11月28日
首次发现:你的大脑「指纹」,全球独一份
新智元
0+阅读 · 2021年11月2日
首次发现:你的大脑“指纹”,全球独一份
学术头条
1+阅读 · 2021年10月19日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
57+阅读 · 2022年1月5日
Deep Reinforcement Learning: An Overview
Arxiv
17+阅读 · 2018年11月26日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
Top
微信扫码咨询专知VIP会员