项目名称: 受限制策略下多臂Bandit过程的理论与应用研究

项目编号: No.71371074

项目类型: 面上项目

立项/批准年度: 2013

项目学科: 管理科学

项目作者: 吴贤毅

作者单位: 华东师范大学

项目金额: 57万元

中文摘要: 多臂Bandit过程模型(Multi-armed Bandit Processes,简称为MAB)起源于1950年代,属于动态随机最优化的范畴,是一种特殊类型的动态随机控制模型,用于处理如何最优地进行稀缺资源的分配。从数学上来说,MAB由一组平行的可控随机过程组成,每个随机过程有两个选项:演进和停止,一旦向前演进,该过程的信息会随时更新,同时给出一个报酬流;一旦被停止,则其信息流和报酬都不会发生更新。MAB模型的目标是确定各个随机过程演进和停止的规则(时间分配规则),满足条件:在时间t,各个随机过程进程时间之和不大于总时间t,并且使得期望折扣总报酬达到最大。本项目旨在MAB模型中引入受限策略的概念,以便刻画现实中对策略的技术限制(比如在某个随机过程达到一定的状态时,不允许被停止),相应发展一套受限策略下MAB最优策略的新理论、新方法,并探索其在相关领域比如随机调度领域的应用。

中文关键词: bandit processes;Gittins indices;受限策略;最优停时;随机调度

英文摘要: Multi-armed bandit processes (abbreviated as MAB), which are dated back to 1950s, belong to the framework of dynamic stochastic optimizaitons. They are a type of particular dynamic stochastic control models that are concerned with the problems of optimall

英文关键词: bandit processes;Gittins index;constrained policies;optimal stopping times;stochastic scheduling

成为VIP会员查看完整内容
0

相关内容

使用博弈论进行国防资源分配管理
专知会员服务
72+阅读 · 2022年5月6日
逆优化: 理论与应用
专知会员服务
35+阅读 · 2021年9月13日
专知会员服务
57+阅读 · 2021年6月1日
【2021新书】分布式优化,博弈和学习算法,227页pdf
专知会员服务
216+阅读 · 2021年5月25日
【斯坦福经典书】强化学习在金融应用,414页pdf
专知会员服务
121+阅读 · 2021年3月30日
【斯坦福干货书】强化学习基金融领域应用,312页pdf
专知会员服务
132+阅读 · 2020年12月22日
【哈佛经典书】概率论与随机过程及其应用,382页pdf
专知会员服务
58+阅读 · 2020年11月14日
【干货书】贝叶斯推断随机过程,449页pdf
专知会员服务
149+阅读 · 2020年8月27日
【强化学习】深度强化学习初学者指南
专知会员服务
178+阅读 · 2019年12月14日
深入理解强化学习,看这篇就够了
PaperWeekly
5+阅读 · 2021年11月28日
【干货书】贝叶斯推断随机过程,449页pdf
专知
26+阅读 · 2020年8月27日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Hydra: A System for Large Multi-Model Deep Learning
Arxiv
0+阅读 · 2022年6月3日
Arxiv
0+阅读 · 2022年6月3日
Arxiv
0+阅读 · 2022年6月1日
Arxiv
1+阅读 · 2022年5月31日
Arxiv
11+阅读 · 2018年4月25日
小贴士
相关主题
相关VIP内容
使用博弈论进行国防资源分配管理
专知会员服务
72+阅读 · 2022年5月6日
逆优化: 理论与应用
专知会员服务
35+阅读 · 2021年9月13日
专知会员服务
57+阅读 · 2021年6月1日
【2021新书】分布式优化,博弈和学习算法,227页pdf
专知会员服务
216+阅读 · 2021年5月25日
【斯坦福经典书】强化学习在金融应用,414页pdf
专知会员服务
121+阅读 · 2021年3月30日
【斯坦福干货书】强化学习基金融领域应用,312页pdf
专知会员服务
132+阅读 · 2020年12月22日
【哈佛经典书】概率论与随机过程及其应用,382页pdf
专知会员服务
58+阅读 · 2020年11月14日
【干货书】贝叶斯推断随机过程,449页pdf
专知会员服务
149+阅读 · 2020年8月27日
【强化学习】深度强化学习初学者指南
专知会员服务
178+阅读 · 2019年12月14日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
微信扫码咨询专知VIP会员