优化的序列决策需要考虑大量潜在的行动序列,并随着每一步的推进,未来的选择空间呈指数级增长。决策的理论难度因人类和其他动物面临的资源限制而进一步加剧,例如有限的时间和记忆。虽然这些限制通常被认为是次优行为的原因,但新兴的资源理性框架则持不同观点,认为看似次优的行为实际上是为了适应这些限制而调节的,并且合理利用有限的资源。本文关注人类和其他动物在适应性简化决策时采用的两种主要方法。
第一种方法是层级表征,因其直观的吸引力而被广泛关注,适当选择层级可以将复杂任务分解为更简单的子任务。我们开发了一个资源理性框架,其中子目标是根据它们如何简化规划的高成本过程来选择的。我们在仿真中发现了这个框架与其他理论的创新性联系,且框架的预测与大规模行为实验中的人类行为一致。在另一项研究中,我们进行了一个过程追踪实验,参与者创建了层级结构的程序,并识别出一种关于重用的启发式偏差,这种偏差指导了层级表征的形成。 我们考虑的第二种主要方法是强化学习任务中的启发式策略。我们提出了一个策略推断框架,其中策略被表述为程序,并根据它们的任务表现和复杂性进行评估。通过聚焦于强盗问题的仿真,我们研究了策略如何根据对复杂性的权重变化以及与先前研究中行为特征的关系而变化。