受限制策略下多臂Bandit过程的理论与应用研究 - 专知基金

会员服务 ·

0

随机调度 ·

2012 年 12 月 31 日

受限制策略下多臂Bandit过程的理论与应用研究

国家自然科学基金

国家自然科学基金委员会

项目名称： 受限制策略下多臂Bandit过程的理论与应用研究

项目编号： No.71371074

项目类型： 面上项目

立项/批准年度： 2013

项目学科： 管理科学

项目作者： 吴贤毅

作者单位： 华东师范大学

项目金额： 57万元

中文摘要： 多臂Bandit过程模型（Multi-armed Bandit Processes,简称为MAB）起源于1950年代，属于动态随机最优化的范畴，是一种特殊类型的动态随机控制模型，用于处理如何最优地进行稀缺资源的分配。从数学上来说，MAB由一组平行的可控随机过程组成，每个随机过程有两个选项：演进和停止，一旦向前演进，该过程的信息会随时更新，同时给出一个报酬流；一旦被停止，则其信息流和报酬都不会发生更新。MAB模型的目标是确定各个随机过程演进和停止的规则（时间分配规则），满足条件：在时间t，各个随机过程进程时间之和不大于总时间t，并且使得期望折扣总报酬达到最大。本项目旨在MAB模型中引入受限策略的概念，以便刻画现实中对策略的技术限制（比如在某个随机过程达到一定的状态时，不允许被停止），相应发展一套受限策略下MAB最优策略的新理论、新方法，并探索其在相关领域比如随机调度领域的应用。

中文关键词： bandit processes；Gittins indices；受限策略；最优停时；随机调度

英文摘要： Multi-armed bandit processes (abbreviated as MAB), which are dated back to 1950s, belong to the framework of dynamic stochastic optimizaitons. They are a type of particular dynamic stochastic control models that are concerned with the problems of optimall

英文关键词： bandit processes；Gittins index；constrained policies；optimal stopping times；stochastic scheduling

成为VIP会员查看完整内容

0

相关内容

使用博弈论进行国防资源分配管理

使用博弈论进行国防资源分配管理

专知会员服务

85+阅读 · 2022年5月6日

逆优化: 理论与应用

逆优化: 理论与应用

专知会员服务

38+阅读 · 2021年9月13日

强化学习组合优化综述论文

专知会员服务

62+阅读 · 2021年6月1日

【2021新书】分布式优化，博弈和学习算法，227页pdf

【2021新书】分布式优化，博弈和学习算法，227页pdf

专知会员服务

237+阅读 · 2021年5月25日

【斯坦福经典书】强化学习在金融应用，414页pdf

【斯坦福经典书】强化学习在金融应用，414页pdf

专知会员服务

127+阅读 · 2021年3月30日

【斯坦福干货书】强化学习基金融领域应用，312页pdf

【斯坦福干货书】强化学习基金融领域应用，312页pdf

专知会员服务

134+阅读 · 2020年12月22日

最新《持续学习机器人技术：定义，框架，学习策略，机会与挑战》综述论文，17页pdf

最新《持续学习机器人技术：定义，框架，学习策略，机会与挑战》综述论文，17页pdf

专知会员服务

56+阅读 · 2020年12月11日

【哈佛经典书】概率论与随机过程及其应用，382页pdf

【哈佛经典书】概率论与随机过程及其应用，382页pdf

专知会员服务

64+阅读 · 2020年11月14日

【干货书】贝叶斯推断随机过程，449页pdf

【干货书】贝叶斯推断随机过程，449页pdf

专知会员服务

155+阅读 · 2020年8月27日

【强化学习】深度强化学习初学者指南

【强化学习】深度强化学习初学者指南

专知会员服务

184+阅读 · 2019年12月14日

针对安全探索的受限强化学习：原始对偶优化算法

针对安全探索的受限强化学习：原始对偶优化算法

PaperWeekly

2+阅读 · 2022年1月8日

DeepMind提出强化学习新方法，可实现人机合作

DeepMind提出强化学习新方法，可实现人机合作

InfoQ

3+阅读 · 2021年12月20日

深入理解强化学习，看这篇就够了

深入理解强化学习，看这篇就够了

PaperWeekly

5+阅读 · 2021年11月28日

【干货书】贝叶斯推断随机过程，449页pdf

【干货书】贝叶斯推断随机过程，449页pdf

专知

30+阅读 · 2020年8月27日

论文浅尝 | 基于深度强化学习将图注意力机制融入知识图谱推理

论文浅尝 | 基于深度强化学习将图注意力机制融入知识图谱推理

开放知识图谱

18+阅读 · 2019年12月31日

【强化学习】强化学习到深度强化学习、强化学习商业用例

【强化学习】强化学习到深度强化学习、强化学习商业用例

产业智能官

30+阅读 · 2019年2月9日

【强化学习】强化学习的应用场景、基本概念、数学模型和交易中的应用

【强化学习】强化学习的应用场景、基本概念、数学模型和交易中的应用

产业智能官

18+阅读 · 2019年1月1日

零售商福音：用机器学习给产品定价实现收益最大化

零售商福音：用机器学习给产品定价实现收益最大化

论智

19+阅读 · 2018年9月28日

论强化学习和概率推断的等价性：一种全新概率模型

论强化学习和概率推断的等价性：一种全新概率模型

机器之心

26+阅读 · 2018年5月5日

【强化学习】「ICML教程」深度强化学习，决策与控制（117 PPT）

【强化学习】「ICML教程」深度强化学习，决策与控制（117 PPT）

产业智能官

41+阅读 · 2017年8月11日

基于量子随机行走智能处理的理论和方法

国家自然科学基金

0+阅读 · 2015年12月31日

关键词广告中的最优广告策略研究

国家自然科学基金

3+阅读 · 2014年12月31日

保险中两类随机最优控制问题及策略过程概率分布研究

国家自然科学基金

0+阅读 · 2014年12月31日

随机最优控制理论在委托代理问题中的应用

国家自然科学基金

1+阅读 · 2013年12月31日

认知无线电网络中的频谱接入控制策略研究

国家自然科学基金

1+阅读 · 2012年12月31日

金融风险模型的最优投资策略与风险管理研究

国家自然科学基金

5+阅读 · 2012年12月31日

基于反射随机过程理论的注资限制下带利率保险模型优化研究

国家自然科学基金

0+阅读 · 2012年12月31日

实代数几何方法及其在多项式优化中的应用

国家自然科学基金

0+阅读 · 2011年12月31日

不适定二层规划求解策略及在委托代理中的应用研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于Lé过程的最优分红策略的研究

国家自然科学基金

0+阅读 · 2011年12月31日

Hydra: A System for Large Multi-Model Deep Learning

Hydra: A System for Large Multi-Model Deep Learning

Arxiv

0+阅读 · 2022年6月3日

Adaptive Learning for Discovery

Arxiv

0+阅读 · 2022年6月3日

Impact of Sampling on Locally Differentially Private Data Collection

Impact of Sampling on Locally Differentially Private Data Collection

Arxiv

0+阅读 · 2022年6月2日

Distributed Training for Deep Learning Models On An Edge Computing Network Using ShieldedReinforcement Learning

Arxiv

0+阅读 · 2022年6月1日

A Near-Optimal Best-of-Both-Worlds Algorithm for Online Learning with Feedback Graphs

Arxiv

0+阅读 · 2022年6月1日

Incentivizing Combinatorial Bandit Exploration

Arxiv

0+阅读 · 2022年6月1日

Online PAC-Bayes Learning

Arxiv

1+阅读 · 2022年5月31日

Optimization of Graph Neural Networks: Implicit Acceleration by Skip Connections and More Depth

Arxiv

20+阅读 · 2021年5月10日

Equilibrium Refinements for Multi-Agent Influence Diagrams: Theory and Practice

Equilibrium Refinements for Multi-Agent Influence Diagrams: Theory and Practice

Arxiv

15+阅读 · 2021年2月9日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

阅读: 0 点赞: 0

小贴士

登录享主题订阅及个性化推荐

相关主题

热门VIP内容

开通专知VIP会员享更多权益服务

【MIT博士论文】弱监督学习：理论、方法与应用

Andrej Karpathy：2025 年 LLM 年度回顾（2025 LLM Year in Review）

锚定情报：合成欺骗时代的地面真相

NeurIPS 2025 | NMKE：基于神经元归因与动态稀疏掩码的终身知识编辑

相关VIP内容

使用博弈论进行国防资源分配管理

使用博弈论进行国防资源分配管理

专知会员服务

85+阅读 · 2022年5月6日

逆优化: 理论与应用

逆优化: 理论与应用

专知会员服务

38+阅读 · 2021年9月13日

强化学习组合优化综述论文

专知会员服务

62+阅读 · 2021年6月1日

【2021新书】分布式优化，博弈和学习算法，227页pdf

【2021新书】分布式优化，博弈和学习算法，227页pdf

专知会员服务

237+阅读 · 2021年5月25日

【斯坦福经典书】强化学习在金融应用，414页pdf

【斯坦福经典书】强化学习在金融应用，414页pdf

专知会员服务

127+阅读 · 2021年3月30日

【斯坦福干货书】强化学习基金融领域应用，312页pdf

【斯坦福干货书】强化学习基金融领域应用，312页pdf

专知会员服务

134+阅读 · 2020年12月22日

最新《持续学习机器人技术：定义，框架，学习策略，机会与挑战》综述论文，17页pdf

最新《持续学习机器人技术：定义，框架，学习策略，机会与挑战》综述论文，17页pdf

专知会员服务

56+阅读 · 2020年12月11日

【哈佛经典书】概率论与随机过程及其应用，382页pdf

【哈佛经典书】概率论与随机过程及其应用，382页pdf

专知会员服务

64+阅读 · 2020年11月14日

【干货书】贝叶斯推断随机过程，449页pdf

【干货书】贝叶斯推断随机过程，449页pdf

专知会员服务

155+阅读 · 2020年8月27日

【强化学习】深度强化学习初学者指南

【强化学习】深度强化学习初学者指南

专知会员服务

184+阅读 · 2019年12月14日

相关资讯

针对安全探索的受限强化学习：原始对偶优化算法

针对安全探索的受限强化学习：原始对偶优化算法

PaperWeekly

2+阅读 · 2022年1月8日

DeepMind提出强化学习新方法，可实现人机合作

DeepMind提出强化学习新方法，可实现人机合作

InfoQ

3+阅读 · 2021年12月20日

深入理解强化学习，看这篇就够了

深入理解强化学习，看这篇就够了

PaperWeekly

5+阅读 · 2021年11月28日

【干货书】贝叶斯推断随机过程，449页pdf

【干货书】贝叶斯推断随机过程，449页pdf

专知

30+阅读 · 2020年8月27日

论文浅尝 | 基于深度强化学习将图注意力机制融入知识图谱推理

论文浅尝 | 基于深度强化学习将图注意力机制融入知识图谱推理

开放知识图谱

18+阅读 · 2019年12月31日

【强化学习】强化学习到深度强化学习、强化学习商业用例

【强化学习】强化学习到深度强化学习、强化学习商业用例

产业智能官

30+阅读 · 2019年2月9日

【强化学习】强化学习的应用场景、基本概念、数学模型和交易中的应用

【强化学习】强化学习的应用场景、基本概念、数学模型和交易中的应用

产业智能官

18+阅读 · 2019年1月1日

零售商福音：用机器学习给产品定价实现收益最大化

零售商福音：用机器学习给产品定价实现收益最大化

论智

19+阅读 · 2018年9月28日

论强化学习和概率推断的等价性：一种全新概率模型

论强化学习和概率推断的等价性：一种全新概率模型

机器之心

26+阅读 · 2018年5月5日

【强化学习】「ICML教程」深度强化学习，决策与控制（117 PPT）

【强化学习】「ICML教程」深度强化学习，决策与控制（117 PPT）

产业智能官

41+阅读 · 2017年8月11日

相关基金

基于量子随机行走智能处理的理论和方法

国家自然科学基金

0+阅读 · 2015年12月31日

关键词广告中的最优广告策略研究

国家自然科学基金

3+阅读 · 2014年12月31日

保险中两类随机最优控制问题及策略过程概率分布研究

国家自然科学基金

0+阅读 · 2014年12月31日

随机最优控制理论在委托代理问题中的应用

国家自然科学基金

1+阅读 · 2013年12月31日

认知无线电网络中的频谱接入控制策略研究

国家自然科学基金

1+阅读 · 2012年12月31日

金融风险模型的最优投资策略与风险管理研究

国家自然科学基金

5+阅读 · 2012年12月31日

基于反射随机过程理论的注资限制下带利率保险模型优化研究

国家自然科学基金

0+阅读 · 2012年12月31日

实代数几何方法及其在多项式优化中的应用

国家自然科学基金

0+阅读 · 2011年12月31日

不适定二层规划求解策略及在委托代理中的应用研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于Lé过程的最优分红策略的研究

国家自然科学基金

0+阅读 · 2011年12月31日

相关论文

Hydra: A System for Large Multi-Model Deep Learning

Hydra: A System for Large Multi-Model Deep Learning

Arxiv

0+阅读 · 2022年6月3日

Adaptive Learning for Discovery

Arxiv

0+阅读 · 2022年6月3日

Impact of Sampling on Locally Differentially Private Data Collection

Impact of Sampling on Locally Differentially Private Data Collection

Arxiv

0+阅读 · 2022年6月2日

Distributed Training for Deep Learning Models On An Edge Computing Network Using ShieldedReinforcement Learning

Arxiv

0+阅读 · 2022年6月1日

A Near-Optimal Best-of-Both-Worlds Algorithm for Online Learning with Feedback Graphs

Arxiv

0+阅读 · 2022年6月1日

Incentivizing Combinatorial Bandit Exploration

Arxiv

0+阅读 · 2022年6月1日

Online PAC-Bayes Learning

Arxiv

1+阅读 · 2022年5月31日

Optimization of Graph Neural Networks: Implicit Acceleration by Skip Connections and More Depth

Arxiv

20+阅读 · 2021年5月10日

Equilibrium Refinements for Multi-Agent Influence Diagrams: Theory and Practice

Equilibrium Refinements for Multi-Agent Influence Diagrams: Theory and Practice

Arxiv

15+阅读 · 2021年2月9日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

微信扫码咨询专知VIP会员