《认知行动中的无模型强化学习》哈佛大学博士论文

人们经常坚持做一些理智上知道对他们不再有好处的事情。他们漫不经心地走自己的老路去上班，尽管他们知道那条路因施工而关闭，或者拿起早晨的咖啡，尽管他们正在努力戒除咖啡因。这些持续的行为往往被贴上了习惯的标签，而当代理论（contemporary theory）在描述它们背后的计算认知机制方面取得了巨大成功。特别是，关于无模型强化学习的工作表明，习惯是如何从行动和奖励之间的直接关联中产生的（例如，通过过去的行动经验计算出的 "早上去喝咖啡=++"这样的表述）。

然而，对习惯的计算性描述在一个关键方面是缺乏的。直观地说，人们不只是坚持外部的行动，比如早上去喝咖啡。他们也坚持内部的、认知的模式。例如，一个人可能会形成幻想咖啡的习惯，或者计划如何得到她的下一杯咖啡。尽管这些 "思维习惯 "据称对人们的精神生活很重要，但它们在关于习惯的计算性描述中却明显缺乏。这些描述通常把习惯的形成归结为简单的运动动作（比如拉杆）或外部选择（比如在实验室决策任务中选择按钮），而没有研究更多内部的、抽象的认知操作类型的习惯（比如设定买咖啡的目标）。

这篇论文填补了这一空白。在这里，证明了人们在得到奖励后会灵活地坚持两种类型的内部认知行动--设定一个要追求的目标（第一章）和产生一个要考虑的决策选项（第二章），即使这些奖励已知与当前环境无关。将这些模式正式建模为对内部操作的无模型强化学习，并表明思维习惯可以发挥有用的功能。它们通过缩小范围并将其引向少数有希望的路径，帮助使基于模型的规划变得可行。最后，还发现，有些认知行动并没有表现出这种思维习惯。在我们的实验中（第三章），人们并没有采用无模型强化学习来选择分块的行动序列（例如，在心理上将按下的按钮序列作为一个单元分块），而是只使用基于模型的规划来选择序列。总之，这项工作提供了一个可以支撑思维习惯的认知机制的精确说明；严格地证明了这种习惯的存在；提出了它们的适应性功能；并开始绘制它们的边界条件。