大脑也在强化学习！加州大学提出「价值决策」被大脑高效编码，登Neuron顶刊

会员服务 ·

大脑也在强化学习！加州大学提出「价值决策」被大脑高效编码，登Neuron顶刊

2021 年 11 月 26 日 新智元

新智元报道

编辑：David

【新智元导读】人和动物的决策离不开大脑，大脑决策要靠「价值信息」。一项新研究揭示了这类关键信息更新和编码的详细机制，实验表明，它们被编入一个资源库，可以持久保存，长期调用。

我们每个人的一生都要做出大量的决定，小到「今天晚上吃什么」、「明天放假去哪里玩」，大到「这次战役怎么打」、「这部法律如何制定」。

这些决定的结果，要由决策者的大脑来给出最终裁决。

所以，大脑中负责这类「裁决」的关键区域，成为科学家们关注的重点。

2019 年，加州大学圣地亚哥分校的研究人员就发现了做出「价值决策」的大脑区域。

他们发现，这个区域被称为脾后皮层 (RSC)，是用来做出「有价值的选择」的地方，比如决定今晚去哪家餐厅吃饭。然后，根据对今晚饭菜的喜好程度的新印象，用最新信息来更新RSC。

毕竟，只有及时更新信息，才能让大脑做出最正确的决策。

现在，这个团队在这个问题上又有新进展。该校生物科学系博士后 Ryoma Hattori 和 Takaki Komiyama 教授领导的新研究，揭示了大脑处理此类动态更新信息的详细机制。

近日发表在Neuron期刊上的论文结果表明，RSC中的更新信息可以持久保存，就像一个可调用的资源库。

这些「持久信息」可以最有效地表示或「编码」有价值的信号，能够跨越大脑的不同区域。

为了研究大脑活动如何表示基于价值的决策的细节，研究人员设置了强化学习实验。价值决策是人类大脑的关键机制，在精神分裂症、痴呆和成瘾等神经系统疾病中常常受损。

在实验中，研究人员小鼠提供了多个选项，对小鼠的选择以一定的概率奖励，并记录在强化学习过程中的相应大脑活动。

由此产生的数据和网络模拟指出了持续编码在如何表示老鼠及其价值决定方面的重要性，以及 RSC 作为这项活动的纽带。

研究人员在论文中解释说：「这些结果表明，尽管信息编码是高度分布的，但并非所有神经活动中表示的信息都可以在每个区域中使用。这些结果表明，依赖于上下文的持久性信息，促进了可靠的信号编码，扩大了信息在大脑中的分布。」

研究人员发现，信息的持久性，可以让价值信号在大脑的不同区域得到最高效的编码，尤其是在脾后皮层中。图片来源：加州大学圣地亚哥分校 Komiyama 实验室

研究团队成员，论文作者之一Hattori表示，众所周知，神经元会在不同的活动模式中循环，一些神经元的活动会激增，而另一些则保持沉默。

Ryoma Hattori

这些大脑活动模式已被证明与某些与任务相关的信息相关，例如决策的价值信息。由于 RSC 在连接多个大脑网络和功能方面发挥着核心作用，此次新发现进一步强化了2019年的成果。

“我们认为在小鼠大脑中，RSC的作用是价值信息的稳定储存库，当老鼠进行强化学习和决策时，RSC 会将价值信息分发到其他大脑区域，这些区域对于进一步处理价值信号至关重要。”

为了进一步测试他们的发现，Hattori 和 Komiyama 使用了他们在实验期间记录的超过 100000 次小鼠决策的「大数据」库。

研究人员对人工智能 (AI) 网络进行编程，模仿基于计算机的强化试验中的行为策略，得到了与现实世界的实验非常相似的结果。

Takaki Komiyama

「当我们训练AI做同样的行为时，它采用了相同的策略和相同的方式来表示神经活动中的信息，」Komiyama 说

「这表明，我们的发现确实是神经回路执行这种行为的选择策略。AI和小鼠之间的这种相似性真的很有趣。」

参考资料：

https://neurosciencenews.com/value-decision-encoding-19695/

https://www.cell.com/cell/pdf/S0092-8674(19)30446-5.pdf

https://www.cell.com/neuron/pdf/S0896-6273(21)00891-6.pdf

登录查看更多

相关内容

价值决策

关注 0

瑞典皇家理工学院2022博士论文《从MRI图像分析和表征大脑形态的方法》

专知会员服务

14+阅读 · 2022年4月18日

【Science Advances】MIT最新论文《特化类脑功能在深度神经网络中自发应用》，人脸识别的优化解决方案

专知会员服务

16+阅读 · 2022年4月10日

100页！IEEE标准协会《脑机接口神经技术标准路线图》

专知会员服务

34+阅读 · 2022年2月13日

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制》2021ASU课程，(附书稿PDF&讲义)

专知会员服务

91+阅读 · 2021年1月17日

【Nature通讯】深度神经网络模型中的个体差异

专知会员服务

14+阅读 · 2020年11月16日

【康奈尔】最新《强化学习基础》CS 6789课程

专知会员服务

69+阅读 · 2020年9月27日

【CIKM2020】学习个性化网络搜索会话

专知会员服务

15+阅读 · 2020年9月20日

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

专知会员服务

17+阅读 · 2020年7月14日

多智能体深度强化学习的若干关键科学问题

专知会员服务

193+阅读 · 2020年5月24日

【强化学习】深度强化学习初学者指南

专知会员服务

182+阅读 · 2019年12月14日

“突然忘记要干啥”有了科学解释！两组神经元在作祟，南大校友一作 | 哈佛医学院&多伦多

量子位

0+阅读 · 2022年3月13日

单个神经元通过预测未来活动来学习，有助于解释大脑是如何工作的

机器之心

0+阅读 · 2022年3月12日

「童年阴影」忘不掉？斑马鱼透明大脑研究或破解「恐惧记忆」形成机制

新智元

0+阅读 · 2022年3月10日

新冠轻症也会导致大脑退化，牛津大学最新研究登上Nature

量子位

0+阅读 · 2022年3月8日

AI正在模仿人类大脑！2021年10篇顶会论文：大脑也在「无监督」学习

新智元

0+阅读 · 2022年1月3日

自动化所团队揭示多尺度动态编码，助力脉冲网络实现高效强化学习

中国科学院自动化研究所

0+阅读 · 2021年12月13日

水母一思考，脑袋就放光！加州理工用「神经元荧光成像」改造水母基因，登Cell顶刊

新智元

0+阅读 · 2021年11月30日

深入理解强化学习，看这篇就够了

PaperWeekly

5+阅读 · 2021年11月28日

首次发现：你的大脑「指纹」，全球独一份

新智元

0+阅读 · 2021年11月2日

首次发现：你的大脑“指纹”，全球独一份

学术头条

1+阅读 · 2021年10月19日

网络社交媒体中情绪信息传播的认知神经机制

国家自然科学基金

3+阅读 · 2014年12月31日

TRPC1介导海马内少突胶质细胞与有髓神经纤维损伤对糖尿病认知功能障碍作用的机制探讨

国家自然科学基金

0+阅读 · 2013年12月31日

速度和距离对三维空间中时空整合的不同影响：行为与神经证据

国家自然科学基金

0+阅读 · 2012年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

自我-他人决策差异的心理及脑机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

视皮层神经元网络时空行为的动力学机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

Dlx5/6通过调控PV中间神经元改变染铅幼鼠行为学的机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

腺苷A2A受体激活RhoA/ROCK2信号通路破坏神经元骨架促进颅脑创伤后认知障碍的机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

虚拟现实中的人类路径整合研究

国家自然科学基金

7+阅读 · 2012年12月31日

手抓握时大脑皮层与上肢肌肉间信息传输的研究

国家自然科学基金

1+阅读 · 2010年12月31日

Random Graphs by Product Random Measures

Arxiv

0+阅读 · 2022年4月20日

COptiDICE: Offline Constrained Reinforcement Learning via Stationary Distribution Correction Estimation

Arxiv

0+阅读 · 2022年4月19日

H4D: Human 4D Modeling by Learning Neural Compositional Representation

Arxiv

0+阅读 · 2022年4月19日

Greedification Operators for Policy Optimization: Investigating Forward and Reverse KL Divergences

Arxiv

0+阅读 · 2022年4月18日

MetaDrive: Composing Diverse Driving Scenarios for Generalizable Reinforcement Learning

Arxiv

0+阅读 · 2022年4月18日

Recent Advances and New Frontiers in Spiking Neural Networks

Arxiv

0+阅读 · 2022年4月17日

Barwise Compression Schemes for Audio-Based Music Structure Analysis

Arxiv

0+阅读 · 2022年4月15日

Visual Pressure Estimation and Control for Soft Robotic Grippers

Arxiv

0+阅读 · 2022年4月14日

Forecasting: theory and practice

Arxiv

57+阅读 · 2022年1月5日

Deep Reinforcement Learning: An Overview

Arxiv

17+阅读 · 2018年11月26日

VIP会员