现有的决策计算模型往往局限于特定的实验设置。造成这种限制的主要原因是无法捕捉决策者对情况的不确定性。本文提出了一个计算框架,用于研究神经科学和心理学中不确定情况下的决策制定。框架主要侧重于决策者对世界状况的概率评估,即他们的 “信念”。具体来说,它基于部分可观测马尔可夫决策过程(POMDPs),结合贝叶斯推理和奖励最大化来选择行动。利用感知决策和社会决策方面的各种实验数据,证明了基于信念的决策框架的可行性。框架解释了感知决策实验中决策者的实际表现与他们对实际表现的信念(即决策信心)之间的关系。它还说明了为什么在许多情况下这种评估会偏离现实。这种偏差通常被解释为次优决策的证据,或选择和信心的不同过程。我们的框架对这些解释提出了挑战,它表明,一个优化收益的规范贝叶斯决策者也会产生同样的偏差。此外,在定量预测人类在社会决策任务中的行为方面,方法优于现有模型,并提供了对潜在过程的洞察。结果表明,在涉及大型群体的决策任务中,人类采用贝叶斯推理来模拟 “群体心理”,并对他人的决策做出预测。最后,将方法扩展到关于他人的多个推理层次(心智理论层次),并将服从作为群体决策的一种策略联系起来。这个扩展框架可以解释人类在各种集体群体决策任务中的行为,为大型群体中的合作与协调提供了新的理论。
图 1.1: 基于信念的决策框架。智能体通过行动、观察和奖励与世界互动。智能体无法完全观测到世界的状态,只能根据观测结果和智能体的内部世界模型,以概率方式表示世界的状态。智能体的目标是根据当前状态的概率分布来制定策略,即所谓的信念