人们经常坚持做一些理智上知道对他们不再有好处的事情。他们漫不经心地走自己的老路去上班,尽管他们知道那条路因施工而关闭,或者拿起早晨的咖啡,尽管他们正在努力戒除咖啡因。这些持续的行为往往被贴上了习惯的标签,而当代理论(contemporary theory)在描述它们背后的计算认知机制方面取得了巨大成功。特别是,关于无模型强化学习的工作表明,习惯是如何从行动和奖励之间的直接关联中产生的(例如,通过过去的行动经验计算出的 "早上去喝咖啡=++"这样的表述)。

然而,对习惯的计算性描述在一个关键方面是缺乏的。直观地说,人们不只是坚持外部的行动,比如早上去喝咖啡。他们也坚持内部的、认知的模式。例如,一个人可能会形成幻想咖啡的习惯,或者计划如何得到她的下一杯咖啡。尽管这些 "思维习惯 "据称对人们的精神生活很重要,但它们在关于习惯的计算性描述中却明显缺乏。这些描述通常把习惯的形成归结为简单的运动动作(比如拉杆)或外部选择(比如在实验室决策任务中选择按钮),而没有研究更多内部的、抽象的认知操作类型的习惯(比如设定买咖啡的目标)。

这篇论文填补了这一空白。在这里,证明了人们在得到奖励后会灵活地坚持两种类型的内部认知行动--设定一个要追求的目标(第一章)和产生一个要考虑的决策选项(第二章),即使这些奖励已知与当前环境无关。将这些模式正式建模为对内部操作的无模型强化学习,并表明思维习惯可以发挥有用的功能。它们通过缩小范围并将其引向少数有希望的路径,帮助使基于模型的规划变得可行。最后,还发现,有些认知行动并没有表现出这种思维习惯。在我们的实验中(第三章),人们并没有采用无模型强化学习来选择分块的行动序列(例如,在心理上将按下的按钮序列作为一个单元分块),而是只使用基于模型的规划来选择序列。总之,这项工作提供了一个可以支撑思维习惯的认知机制的精确说明;严格地证明了这种习惯的存在;提出了它们的适应性功能;并开始绘制它们的边界条件。

成为VIP会员查看完整内容
18

相关内容

【斯坦福博士论文】智能机器人行为自适应学习,141页pdf
【普林斯顿博士论文】神经符号机器学习推理,133页pdf
专知会员服务
52+阅读 · 2023年2月1日
《多智能体系统中的目标管理》莱特州立大学博士论文
专知会员服务
67+阅读 · 2022年11月25日
《多智能体任务规划》2022博士论文
专知会员服务
270+阅读 · 2022年11月20日
【牛津大学博士论文】解释深度神经网络,134页pdf
专知会员服务
216+阅读 · 2020年10月8日
可达鸭为什么这么火?
ZEALER订阅号
0+阅读 · 2022年5月23日
深度强化学习入门,这一篇就够了!
机器学习算法与Python学习
27+阅读 · 2018年8月17日
论强化学习的根本缺陷
AI科技评论
11+阅读 · 2018年7月24日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
4+阅读 · 2011年6月30日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
13+阅读 · 2009年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
4+阅读 · 2011年6月30日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
13+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员