We introduce Coarse Q-learning (CQL), a reinforcement learning model of decision-making under payoff uncertainty where alternatives are exogenously partitioned into coarse similarity classes (based on limited salience) and the agent maintains estimates (valuations) of expected payoffs only at the class level. Choices are modeled as softmax (multinomial logit) over class valuations and uniform within class; and valuations update toward realized payoffs as in classical Q-learning with stochastic bandit feedback (Watkins and Dayan, 1992). Using stochastic approximation, we derive a continuous-time ODE limit of CQL dynamics and show that its steady states coincide with smooth (logit) perturbations of Valuation Equilibria (Jehiel and Samet, 2007). We demonstrate the possibility of multiple equilibria in decision trees with generic payoffs and establish local asymptotic stability of strict pure equilibria whenever they exist. By contrast, we provide sufficient conditions on the primitives under which every decision tree admits a unique, globally asymptotically stable mixed equilibrium that renders the agent indifferent across classes as sensitivity to payoff differences diverges. Nevertheless, convergence to equilibrium is not universal: we construct an open set of decision trees where the unique mixed equilibrium is linearly unstable and the valuations converge to a stable limit cycle - with choice probabilities perpetually oscillating.


翻译:本文提出粗粒度Q学习(CQL),这是一种在收益不确定性下进行决策的强化学习模型。在该模型中,备选方案被外生地划分为粗粒度的相似类别(基于有限的显著性),智能体仅在类别层面维护预期收益的估计值(估值)。选择行为被建模为类别估值上的softmax(多项逻辑)分布,并在类别内部保持均匀分布;估值更新方式遵循经典Q学习中的随机多臂赌博机反馈机制(Watkins and Dayan, 1992),向实际收益方向调整。通过随机逼近方法,我们推导出CQL动态的连续时间常微分方程极限,并证明其稳态与估值均衡(Jehiel和Samet, 2007)的光滑(逻辑)扰动形式一致。我们在具有一般性收益的决策树中证明了多重均衡存在的可能性,并确立了严格纯策略均衡在存在时的局部渐近稳定性。相比之下,我们提出了关于模型基本要素的充分条件,使得每个决策树都存在唯一、全局渐近稳定的混合策略均衡,该均衡在收益差异敏感度趋于无穷时使智能体在类别间表现出无差异。然而,收敛到均衡并非普遍现象:我们构造了一个决策树的开集,其中唯一的混合策略均衡是线性不稳定的,估值会收敛到一个稳定的极限环——选择概率将持续振荡。

0
下载
关闭预览

相关内容

【NeurIPS2022】通过模型转换的可解释强化学习
专知会员服务
38+阅读 · 2022年10月4日
【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【NeurIPS2022】通过模型转换的可解释强化学习
专知会员服务
38+阅读 · 2022年10月4日
【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员