成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
大脑也在强化学习!加州大学提出「价值决策」被大脑高效编码,登Neuron顶刊
2021 年 11 月 26 日
新智元
新智元报道
编辑:David
【新智元导读】
人和动物的决策离不开大脑,大脑决策要靠「价值信息」。一项新研究揭示了这类关键信息更新和编码的详细机制,实验表明,它们被编入一个资源库,可以持久保存,长期调用。
我们每个人的一生都要做出大量的决定,小到「今天晚上吃什么」、「明天放假去哪里玩」,大到「这次战役怎么打」、「这部法律如何制定」。
这些决定的结果,要由决策者的大脑来给出最终裁决。
所以,大脑中负责这类「裁决」的关键区域,成为科学家们关注的重点。
2019 年,加州大学圣地亚哥分校的研究人员就发现了做出「价值决策」的大脑区域。
他们发现,这个区域被称为脾后皮层 (RSC),是用来做出「有价值的选择」的地方,比如决定今晚去哪家餐厅吃饭。然后,根据对今晚饭菜的喜好程度的新印象,用最新信息来更新RSC。
毕竟,只有及时更新信息,才能让大脑做出最正确的决策。
现在,这个团队在这个问题上又有新进展。该校生物科学系博士后 Ryoma Hattori 和 Takaki Komiyama 教授领导的新研究,揭示了大脑处理此类动态更新信息的详细机制。
近日发表在Neuron期刊上的论文结果表明,
RSC中的更新信息可以持久保存,就像一个可调用的资源库。
这些「持久信息」可以最有效地表示或「编码」有价值的信号,能够跨越大脑的不同区域。
为了研究大脑活动如何表示基于价值的决策的细节,研究人员设置了强化学习实验。价值决策是人类大脑的关键机制,在精神分裂症、痴呆和成瘾等神经系统疾病中常常受损。
在实验中,研究人员小鼠提供了多个选项,对小鼠的选择以一定的概率奖励,并记录在强化学习过程中的相应大脑活动。
由此产生的数据和网络模拟指出了持续编码在如何表示老鼠及其价值决定方面的重要性,以及 RSC 作为这项活动的纽带。
研究人员在论文中解释说:「这些结果表明,尽管信息编码是高度分布的,但并非所有神经活动中表示的信息都可以在每个区域中使用。这些结果表明,依赖于上下文的持久性信息,促进了可靠的信号编码,扩大了信息在大脑中的分布。」
研究人员发现,信息的持久性,可以让价值信号在大脑的不同区域得到最高效的编码,尤其是在脾后皮层中。图片来源:加州大学圣地亚哥分校 Komiyama 实验室
研究团队成员,论文作者之一Hattori表示,众所周知,神经元会在不同的活动模式中循环,一些神经元的活动会激增,而另一些则保持沉默。
Ryoma Hattori
这些大脑活动模式已被证明与某些与任务相关的信息相关,例如决策的价值信息。由于 RSC 在连接多个大脑网络和功能方面发挥着核心作用,此次新发现进一步强化了2019年的成果。
“我们认为在小鼠大脑中,RSC的作用是价值信息的稳定储存库,当老鼠进行强化学习和决策时,RSC 会将价值信息分发到其他大脑区域,这些区域对于进一步处理价值信号至关重要。”
为了进一步测试他们的发现,Hattori 和 Komiyama 使用了他们在实验期间记录的超过 100000 次小鼠决策的「大数据」库。
研究人员对人工智能 (AI) 网络进行编程,模仿基于计算机的强化试验中的行为策略,得到了与现实世界的实验非常相似的结果。
Takaki Komiyama
「当我们训练AI做同样的行为时,它采用了相同的策略和相同的方式来表示神经活动中的信息,」Komiyama 说
「这表明,我们的发现确实是神经回路执行这种行为的选择策略。AI和小鼠之间的这种相似性真的很有趣。」
参考资料:
https://neurosciencenews.com/value-decision-encoding-19695/
https://www.cell.com/cell/pdf/S0092-8674(19)30446-5.pdf
https://www.cell.com/neuron/pdf/S0896-6273(21)00891-6.pdf
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
价值决策
关注
0
瑞典皇家理工学院2022博士论文《从MRI图像分析和表征大脑形态的方法》
专知会员服务
13+阅读 · 2022年4月18日
【Science Advances】MIT最新论文《特化类脑功能在深度神经网络中自发应用》,人脸识别的优化解决方案
专知会员服务
14+阅读 · 2022年4月10日
100页!IEEE标准协会《脑机接口神经技术标准路线图》
专知会员服务
32+阅读 · 2022年2月13日
MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制》2021ASU课程,(附书稿PDF&讲义)
专知会员服务
89+阅读 · 2021年1月17日
【Nature通讯】深度神经网络模型中的个体差异
专知会员服务
13+阅读 · 2020年11月16日
【康奈尔】最新《强化学习基础》CS 6789课程
专知会员服务
67+阅读 · 2020年9月27日
【CIKM2020】学习个性化网络搜索会话
专知会员服务
14+阅读 · 2020年9月20日
【ICML2020-伯克利】稳定非策略强化学习的表示,Representations for Stable Off-Policy Reinforcement Learning
专知会员服务
16+阅读 · 2020年7月14日
多智能体深度强化学习的若干关键科学问题
专知会员服务
188+阅读 · 2020年5月24日
【强化学习】深度强化学习初学者指南
专知会员服务
179+阅读 · 2019年12月14日
“突然忘记要干啥”有了科学解释!两组神经元在作祟,南大校友一作 | 哈佛医学院&多伦多
量子位
0+阅读 · 2022年3月13日
单个神经元通过预测未来活动来学习,有助于解释大脑是如何工作的
机器之心
0+阅读 · 2022年3月12日
「童年阴影」忘不掉?斑马鱼透明大脑研究或破解「恐惧记忆」形成机制
新智元
0+阅读 · 2022年3月10日
新冠轻症也会导致大脑退化,牛津大学最新研究登上Nature
量子位
0+阅读 · 2022年3月8日
AI正在模仿人类大脑!2021年10篇顶会论文:大脑也在「无监督」学习
新智元
0+阅读 · 2022年1月3日
自动化所团队揭示多尺度动态编码,助力脉冲网络实现高效强化学习
中国科学院自动化研究所
0+阅读 · 2021年12月13日
水母一思考,脑袋就放光!加州理工用「神经元荧光成像」改造水母基因,登Cell顶刊
新智元
0+阅读 · 2021年11月30日
深入理解强化学习,看这篇就够了
PaperWeekly
5+阅读 · 2021年11月28日
首次发现:你的大脑「指纹」,全球独一份
新智元
0+阅读 · 2021年11月2日
首次发现:你的大脑“指纹”,全球独一份
学术头条
1+阅读 · 2021年10月19日
网络社交媒体中情绪信息传播的认知神经机制
国家自然科学基金
3+阅读 · 2014年12月31日
TRPC1介导海马内少突胶质细胞与有髓神经纤维损伤对糖尿病认知功能障碍作用的机制探讨
国家自然科学基金
0+阅读 · 2013年12月31日
速度和距离对三维空间中时空整合的不同影响:行为与神经证据
国家自然科学基金
0+阅读 · 2012年12月31日
不确定环境下强化学习和决策的神经机制
国家自然科学基金
10+阅读 · 2012年12月31日
自我-他人决策差异的心理及脑机制研究
国家自然科学基金
0+阅读 · 2012年12月31日
视皮层神经元网络时空行为的动力学机制研究
国家自然科学基金
0+阅读 · 2012年12月31日
Dlx5/6通过调控PV中间神经元改变染铅幼鼠行为学的机制研究
国家自然科学基金
0+阅读 · 2012年12月31日
腺苷A2A受体激活RhoA/ROCK2信号通路破坏神经元骨架促进颅脑创伤后认知障碍的机制研究
国家自然科学基金
0+阅读 · 2012年12月31日
虚拟现实中的人类路径整合研究
国家自然科学基金
7+阅读 · 2012年12月31日
手抓握时大脑皮层与上肢肌肉间信息传输的研究
国家自然科学基金
0+阅读 · 2010年12月31日
Random Graphs by Product Random Measures
Arxiv
0+阅读 · 2022年4月20日
COptiDICE: Offline Constrained Reinforcement Learning via Stationary Distribution Correction Estimation
Arxiv
0+阅读 · 2022年4月19日
H4D: Human 4D Modeling by Learning Neural Compositional Representation
Arxiv
0+阅读 · 2022年4月19日
Greedification Operators for Policy Optimization: Investigating Forward and Reverse KL Divergences
Arxiv
0+阅读 · 2022年4月18日
MetaDrive: Composing Diverse Driving Scenarios for Generalizable Reinforcement Learning
Arxiv
0+阅读 · 2022年4月18日
Recent Advances and New Frontiers in Spiking Neural Networks
Arxiv
0+阅读 · 2022年4月17日
Barwise Compression Schemes for Audio-Based Music Structure Analysis
Arxiv
0+阅读 · 2022年4月15日
Visual Pressure Estimation and Control for Soft Robotic Grippers
Arxiv
0+阅读 · 2022年4月14日
Forecasting: theory and practice
Arxiv
57+阅读 · 2022年1月5日
Deep Reinforcement Learning: An Overview
Arxiv
17+阅读 · 2018年11月26日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
价值决策
加州大学 (University of California)
强化学习
神经元
关键信息
大学
相关VIP内容
瑞典皇家理工学院2022博士论文《从MRI图像分析和表征大脑形态的方法》
专知会员服务
13+阅读 · 2022年4月18日
【Science Advances】MIT最新论文《特化类脑功能在深度神经网络中自发应用》,人脸识别的优化解决方案
专知会员服务
14+阅读 · 2022年4月10日
100页!IEEE标准协会《脑机接口神经技术标准路线图》
专知会员服务
32+阅读 · 2022年2月13日
MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制》2021ASU课程,(附书稿PDF&讲义)
专知会员服务
89+阅读 · 2021年1月17日
【Nature通讯】深度神经网络模型中的个体差异
专知会员服务
13+阅读 · 2020年11月16日
【康奈尔】最新《强化学习基础》CS 6789课程
专知会员服务
67+阅读 · 2020年9月27日
【CIKM2020】学习个性化网络搜索会话
专知会员服务
14+阅读 · 2020年9月20日
【ICML2020-伯克利】稳定非策略强化学习的表示,Representations for Stable Off-Policy Reinforcement Learning
专知会员服务
16+阅读 · 2020年7月14日
多智能体深度强化学习的若干关键科学问题
专知会员服务
188+阅读 · 2020年5月24日
【强化学习】深度强化学习初学者指南
专知会员服务
179+阅读 · 2019年12月14日
热门VIP内容
开通专知VIP会员 享更多权益服务
《优化联合作战准备:日本视角》最新21页
《基于嵌入式导弹系统的自主防空系统以挫败巡航威胁的定量论证》90页
乌克兰首次完全依靠UGV 和 FPV 无人机全自动攻击俄罗斯部队
《中高度长航时遥控无人机自动定位和跟踪》190页
相关资讯
“突然忘记要干啥”有了科学解释!两组神经元在作祟,南大校友一作 | 哈佛医学院&多伦多
量子位
0+阅读 · 2022年3月13日
单个神经元通过预测未来活动来学习,有助于解释大脑是如何工作的
机器之心
0+阅读 · 2022年3月12日
「童年阴影」忘不掉?斑马鱼透明大脑研究或破解「恐惧记忆」形成机制
新智元
0+阅读 · 2022年3月10日
新冠轻症也会导致大脑退化,牛津大学最新研究登上Nature
量子位
0+阅读 · 2022年3月8日
AI正在模仿人类大脑!2021年10篇顶会论文:大脑也在「无监督」学习
新智元
0+阅读 · 2022年1月3日
自动化所团队揭示多尺度动态编码,助力脉冲网络实现高效强化学习
中国科学院自动化研究所
0+阅读 · 2021年12月13日
水母一思考,脑袋就放光!加州理工用「神经元荧光成像」改造水母基因,登Cell顶刊
新智元
0+阅读 · 2021年11月30日
深入理解强化学习,看这篇就够了
PaperWeekly
5+阅读 · 2021年11月28日
首次发现:你的大脑「指纹」,全球独一份
新智元
0+阅读 · 2021年11月2日
首次发现:你的大脑“指纹”,全球独一份
学术头条
1+阅读 · 2021年10月19日
相关基金
网络社交媒体中情绪信息传播的认知神经机制
国家自然科学基金
3+阅读 · 2014年12月31日
TRPC1介导海马内少突胶质细胞与有髓神经纤维损伤对糖尿病认知功能障碍作用的机制探讨
国家自然科学基金
0+阅读 · 2013年12月31日
速度和距离对三维空间中时空整合的不同影响:行为与神经证据
国家自然科学基金
0+阅读 · 2012年12月31日
不确定环境下强化学习和决策的神经机制
国家自然科学基金
10+阅读 · 2012年12月31日
自我-他人决策差异的心理及脑机制研究
国家自然科学基金
0+阅读 · 2012年12月31日
视皮层神经元网络时空行为的动力学机制研究
国家自然科学基金
0+阅读 · 2012年12月31日
Dlx5/6通过调控PV中间神经元改变染铅幼鼠行为学的机制研究
国家自然科学基金
0+阅读 · 2012年12月31日
腺苷A2A受体激活RhoA/ROCK2信号通路破坏神经元骨架促进颅脑创伤后认知障碍的机制研究
国家自然科学基金
0+阅读 · 2012年12月31日
虚拟现实中的人类路径整合研究
国家自然科学基金
7+阅读 · 2012年12月31日
手抓握时大脑皮层与上肢肌肉间信息传输的研究
国家自然科学基金
0+阅读 · 2010年12月31日
相关论文
Random Graphs by Product Random Measures
Arxiv
0+阅读 · 2022年4月20日
COptiDICE: Offline Constrained Reinforcement Learning via Stationary Distribution Correction Estimation
Arxiv
0+阅读 · 2022年4月19日
H4D: Human 4D Modeling by Learning Neural Compositional Representation
Arxiv
0+阅读 · 2022年4月19日
Greedification Operators for Policy Optimization: Investigating Forward and Reverse KL Divergences
Arxiv
0+阅读 · 2022年4月18日
MetaDrive: Composing Diverse Driving Scenarios for Generalizable Reinforcement Learning
Arxiv
0+阅读 · 2022年4月18日
Recent Advances and New Frontiers in Spiking Neural Networks
Arxiv
0+阅读 · 2022年4月17日
Barwise Compression Schemes for Audio-Based Music Structure Analysis
Arxiv
0+阅读 · 2022年4月15日
Visual Pressure Estimation and Control for Soft Robotic Grippers
Arxiv
0+阅读 · 2022年4月14日
Forecasting: theory and practice
Arxiv
57+阅读 · 2022年1月5日
Deep Reinforcement Learning: An Overview
Arxiv
17+阅读 · 2018年11月26日
大家都在搜
洛克菲勒
自主可控
大型语言模型
CMU博士论文
态势感知
palantir
无人艇
类脑
类脑芯片
社区分享 | 用 PoseNet + TensorFlow.js 在浏览器实现体感游戏
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top