分支强化学习

论文链接: https://www.zhuanzhi.ai/paper/30fefd52a47a458670d26850e1d0f394

强化学习(Reinforcement Learning)是一个经典的在线决策模型。在强化学习中,智能体与未知的环境进行交互,以获得最大的累积奖励。传统强化学习是一个单路径的序列决策模型,智能体在一个状态下只选择一个动作。然而,在推荐系统、在线广告等许多现实应用中,用户们往往会一次选择多个选项,每个选项会触发对应的后继状态,例如,在基于类别的购物推荐中,系统往往会先推荐一些商品的一级类别,当某个一级类别被用户点击时,系统会进一步推荐一些二级类别。在一次购物中,用户可能会选择(触发)多条类别-商品路径,如用户可能会触发“办公设备-打印机-激光打印机”和“办公设备-扫描仪-平板扫描仪”这两条路径。

为了处理这种允许多个动作和多个后继状态的现实场景,微软亚洲研究院的研究员们提出了一种新颖的、树状的强化学习模型,名为分支强化学习(Branching Reinforcement Learning)。在分支强化学习中,每个状态下,智能体可以选择多个动作,每个状态-动作对有一个潜在的概率被触发。如果一个状态-动作对被成功触发,那么它会根据其潜在的转移分布转移到一个常规的后继状态;如果这个状态-动作对没有被成功触发,那它则会转移到一个“终止状态”(奖励总是为零的吸收态)。由于智能体可能触发多条状态-动作路径,因此它的历史序列决策呈现出一个树状结构。

图1:分支强化学习模型示意(当每个状态下允许选择的动作个数为2时)

在分支强化学习这个新的决策模型下,研究员们构建了全新的理论分析工具,包括分支贝尔曼方程(Branching Bellman Equation)、分支价值差异引理(Branching Value Difference Lemma)和分支总方差定律(Branching Law of Total Variance)。研究员们设计了两种计算和采样高效的算法 BranchVI 和 BranchRFE,通过严格的理论分析证明了算法的最优性,并在实验上验证了本文的理论结果。

成为VIP会员查看完整内容
42

相关内容

国际机器学习大会(International Conference on Machine Learning,简称ICML ) 是由国际机器学习学会(IMLS)主办的机器学习国际顶级会议,也是CCF-A类学术会议。ICML 2022 共收到5630 投稿,接收1117 篇 short oral,118篇 long oral,录用率为21.94%。
【ICML2022】深入研究置换敏感的图神经网络
专知会员服务
15+阅读 · 2022年7月31日
【ICML2022】基于少样本策略泛化的决策Transformer
专知会员服务
35+阅读 · 2022年7月11日
【ICML2022】鲁棒强化学习的策略梯度法
专知会员服务
34+阅读 · 2022年5月21日
【ICML2022】MetAug:通过元特征增强的对比学习
专知会员服务
24+阅读 · 2022年5月20日
【ICML2022】可达性约束强化学习
专知会员服务
22+阅读 · 2022年5月18日
专知会员服务
18+阅读 · 2021年9月16日
专知会员服务
31+阅读 · 2021年9月7日
专知会员服务
19+阅读 · 2021年8月30日
专知会员服务
21+阅读 · 2021年5月27日
【ICML2021】来自观察的跨域模仿
专知会员服务
17+阅读 · 2021年5月25日
【ICML2022】在线决策Transformer
专知
2+阅读 · 2022年7月27日
【ICML2022】常识因果关系的因果推理原则
专知
1+阅读 · 2022年7月26日
【ICML2022】公平的因果概念及其后果
专知
3+阅读 · 2022年7月13日
SIGIR2022 | ESCM^2: 升级版全空间多任务转化率预估
机器学习与推荐算法
0+阅读 · 2022年6月10日
WWW'22|用于分布外推荐的因果表征学习
图与推荐
0+阅读 · 2022年5月11日
【ICML2021】基于观察的跨域模仿学习
专知
2+阅读 · 2021年8月30日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Passive frustrated nanomagnet reservoir computing
Arxiv
0+阅读 · 2022年9月16日
Arxiv
64+阅读 · 2022年4月13日
Arxiv
26+阅读 · 2019年3月5日
VIP会员
相关VIP内容
【ICML2022】深入研究置换敏感的图神经网络
专知会员服务
15+阅读 · 2022年7月31日
【ICML2022】基于少样本策略泛化的决策Transformer
专知会员服务
35+阅读 · 2022年7月11日
【ICML2022】鲁棒强化学习的策略梯度法
专知会员服务
34+阅读 · 2022年5月21日
【ICML2022】MetAug:通过元特征增强的对比学习
专知会员服务
24+阅读 · 2022年5月20日
【ICML2022】可达性约束强化学习
专知会员服务
22+阅读 · 2022年5月18日
专知会员服务
18+阅读 · 2021年9月16日
专知会员服务
31+阅读 · 2021年9月7日
专知会员服务
19+阅读 · 2021年8月30日
专知会员服务
21+阅读 · 2021年5月27日
【ICML2021】来自观察的跨域模仿
专知会员服务
17+阅读 · 2021年5月25日
相关资讯
【ICML2022】在线决策Transformer
专知
2+阅读 · 2022年7月27日
【ICML2022】常识因果关系的因果推理原则
专知
1+阅读 · 2022年7月26日
【ICML2022】公平的因果概念及其后果
专知
3+阅读 · 2022年7月13日
SIGIR2022 | ESCM^2: 升级版全空间多任务转化率预估
机器学习与推荐算法
0+阅读 · 2022年6月10日
WWW'22|用于分布外推荐的因果表征学习
图与推荐
0+阅读 · 2022年5月11日
【ICML2021】基于观察的跨域模仿学习
专知
2+阅读 · 2021年8月30日
相关基金
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员