项目名称: 受限制策略下多臂Bandit过程的理论与应用研究
项目编号: No.71371074
项目类型: 面上项目
立项/批准年度: 2013
项目学科: 管理科学
项目作者: 吴贤毅
作者单位: 华东师范大学
项目金额: 57万元
中文摘要: 多臂Bandit过程模型(Multi-armed Bandit Processes,简称为MAB)起源于1950年代,属于动态随机最优化的范畴,是一种特殊类型的动态随机控制模型,用于处理如何最优地进行稀缺资源的分配。从数学上来说,MAB由一组平行的可控随机过程组成,每个随机过程有两个选项:演进和停止,一旦向前演进,该过程的信息会随时更新,同时给出一个报酬流;一旦被停止,则其信息流和报酬都不会发生更新。MAB模型的目标是确定各个随机过程演进和停止的规则(时间分配规则),满足条件:在时间t,各个随机过程进程时间之和不大于总时间t,并且使得期望折扣总报酬达到最大。本项目旨在MAB模型中引入受限策略的概念,以便刻画现实中对策略的技术限制(比如在某个随机过程达到一定的状态时,不允许被停止),相应发展一套受限策略下MAB最优策略的新理论、新方法,并探索其在相关领域比如随机调度领域的应用。
中文关键词: bandit processes;Gittins indices;受限策略;最优停时;随机调度
英文摘要: Multi-armed bandit processes (abbreviated as MAB), which are dated back to 1950s, belong to the framework of dynamic stochastic optimizaitons. They are a type of particular dynamic stochastic control models that are concerned with the problems of optimall
英文关键词: bandit processes;Gittins index;constrained policies;optimal stopping times;stochastic scheduling