优化的序列决策

优化的序列决策需要考虑大量潜在的行动序列,并随着每一步的推进,未来的选择空间呈指数级增长。决策的理论难度因人类和其他动物面临的资源限制而进一步加剧,例如有限的时间和记忆。虽然这些限制通常被认为是次优行为的原因,但新兴的资源理性框架则持不同观点,认为看似次优的行为实际上是为了适应这些限制而调节的,并且合理利用有限的资源。本文关注人类和其他动物在适应性简化决策时采用的两种主要方法。

第一种方法是层级表征,因其直观的吸引力而被广泛关注,适当选择层级可以将复杂任务分解为更简单的子任务。我们开发了一个资源理性框架,其中子目标是根据它们如何简化规划的高成本过程来选择的。我们在仿真中发现了这个框架与其他理论的创新性联系,且框架的预测与大规模行为实验中的人类行为一致。在另一项研究中,我们进行了一个过程追踪实验,参与者创建了层级结构的程序,并识别出一种关于重用的启发式偏差,这种偏差指导了层级表征的形成。 我们考虑的第二种主要方法是强化学习任务中的启发式策略。我们提出了一个策略推断框架,其中策略被表述为程序,并根据它们的任务表现和复杂性进行评估。通过聚焦于强盗问题的仿真,我们研究了策略如何根据对复杂性的权重变化以及与先前研究中行为特征的关系而变化。

成为VIP会员查看完整内容
1

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【伯克利博士论文】神经网络中的结构与表征
专知会员服务
45+阅读 · 5月12日
【MIT博士论文】序列博弈中的近似最优学习, 338页pdf
专知会员服务
34+阅读 · 2023年8月31日
【博士论文】弱反馈的序列决策问题
专知会员服务
22+阅读 · 2023年1月2日
【ICML2022】可达性约束强化学习
专知会员服务
22+阅读 · 2022年5月18日
基于深度元学习的因果推断新方法
图与推荐
11+阅读 · 2020年7月21日
深度学习时代的目标检测算法
炼数成金订阅号
39+阅读 · 2018年3月19日
现代情感分析方法
算法与数学之美
14+阅读 · 2018年1月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
157+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
399+阅读 · 2023年3月31日
Arxiv
20+阅读 · 2023年3月17日
Arxiv
10+阅读 · 2020年11月26日
VIP会员
相关VIP内容
【伯克利博士论文】神经网络中的结构与表征
专知会员服务
45+阅读 · 5月12日
【MIT博士论文】序列博弈中的近似最优学习, 338页pdf
专知会员服务
34+阅读 · 2023年8月31日
【博士论文】弱反馈的序列决策问题
专知会员服务
22+阅读 · 2023年1月2日
【ICML2022】可达性约束强化学习
专知会员服务
22+阅读 · 2022年5月18日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员