项目名称: 连续时间马氏决策过程均值-方差优化问题的研究

项目编号: No.11201182

项目类型: 青年科学基金项目

立项/批准年度: 2013

项目学科: 数理科学和化学

项目作者: 叶柳儿

作者单位: 暨南大学

项目金额: 22万元

中文摘要: 本项目主要研究连续时间马氏决策过程的均值-方差优化问题。拟解决以下三个问题:1)针对Markowitz均值-方差模型,在期望折扣收益最大化或等于某个给定常数的前提下,寻找相应方差最小的策略。通过分析其与折扣准则的理论关系,得到均值-方差最优策略存在的条件,进而得到其计算方法;2)通过建立受约束连续时间MDP均值-方差模型,在期望收益不小于给定常数的条件下,寻找使方差达到最小的策略。运用受约束模型的已有理论结果,分析当前准则下最优策略的存在性以及它的计算方法;3)利用风险中立动态规划新方法,处理连续时间MDP中的折扣、平均和均值-方差最优化问题,建立最优策略存在性,进一步分析相应的计算方法。另外,将分析该方法与现有理论方法的区别和联系,从而扩大MDP的应用范围。以上三个问题的研究均是首次的。

中文关键词: 均值-方差准则;受约束的马氏决策过程;Markov对策;最优性条件;最优策略

英文摘要: In this project, we consider a series of mean-variance optimality problems for continuous-time Markov decision processes (MDPs). The main object is to obtain some policies that minimize the variance over a set of all policies with a given expected reward, which satisfies suitable conditions. We are planning to solve the three following questions: 1) For Markowitz mean-variance models, we aim to find a policy that minimizes the variance over a set of all policies with a optimal/given expected reward. Using the conditional expectation and Markov property we can prove that the mean-variance optimality problem can be transformed to an equivalent discounted optimality problem, and establish the existence of mean-variance optimal policies. Furthermore, we will analysis their computational methods. 2) We establish the constrained continuous-time MDPs models with mean-variance optimality criterion. Using the theory of constrained continuous-time MDPs, we will find the condition of existence of constrained mean-variance optimal policies and their computational methods. 3) We first introduce the concept of risk-averse dynamic programming, and employ the Markov risk measures. Using these new tools,we will establish the existence of discounted/average/mean-variance optimal policies. Moreover, we will analysis the differenc

英文关键词: Mean-variance criterion;Constrained Markov decision processes;Markov games;Optimality conditions;Optimal policy

成为VIP会员查看完整内容
0

相关内容

【NeurIPS 2021】设置多智能体策略梯度的方差
专知会员服务
20+阅读 · 2021年10月24日
专知会员服务
14+阅读 · 2021年9月25日
逆优化: 理论与应用
专知会员服务
36+阅读 · 2021年9月13日
专知会员服务
11+阅读 · 2021年7月4日
专知会员服务
32+阅读 · 2021年7月1日
专知会员服务
21+阅读 · 2021年6月26日
专知会员服务
24+阅读 · 2021年4月21日
【KDD2020】最小方差采样用于图神经网络的快速训练
专知会员服务
27+阅读 · 2020年7月13日
梯度下降(Gradient Descent)的收敛性分析
PaperWeekly
2+阅读 · 2022年3月10日
SIGIR2021 | 基于排序的推荐系统度量优化新视角
机器学习与推荐算法
1+阅读 · 2021年12月6日
两概率分布交叉熵的最小值是多少?
PaperWeekly
0+阅读 · 2021年11月6日
IJCAI 2021 | 一文了解微软亚洲研究院机器学习方向前沿进展
微软研究院AI头条
0+阅读 · 2021年8月24日
酒鬼漫步的数学——随机过程 | 张天蓉专栏
知识分子
10+阅读 · 2017年8月13日
【深度学习基础】1.监督学习和最优化
微信AI
0+阅读 · 2017年6月7日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
5+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
0+阅读 · 2022年4月20日
Deformable Style Transfer
Arxiv
14+阅读 · 2020年3月24日
Arxiv
11+阅读 · 2018年4月25日
小贴士
相关主题
相关VIP内容
【NeurIPS 2021】设置多智能体策略梯度的方差
专知会员服务
20+阅读 · 2021年10月24日
专知会员服务
14+阅读 · 2021年9月25日
逆优化: 理论与应用
专知会员服务
36+阅读 · 2021年9月13日
专知会员服务
11+阅读 · 2021年7月4日
专知会员服务
32+阅读 · 2021年7月1日
专知会员服务
21+阅读 · 2021年6月26日
专知会员服务
24+阅读 · 2021年4月21日
【KDD2020】最小方差采样用于图神经网络的快速训练
专知会员服务
27+阅读 · 2020年7月13日
相关资讯
梯度下降(Gradient Descent)的收敛性分析
PaperWeekly
2+阅读 · 2022年3月10日
SIGIR2021 | 基于排序的推荐系统度量优化新视角
机器学习与推荐算法
1+阅读 · 2021年12月6日
两概率分布交叉熵的最小值是多少?
PaperWeekly
0+阅读 · 2021年11月6日
IJCAI 2021 | 一文了解微软亚洲研究院机器学习方向前沿进展
微软研究院AI头条
0+阅读 · 2021年8月24日
酒鬼漫步的数学——随机过程 | 张天蓉专栏
知识分子
10+阅读 · 2017年8月13日
【深度学习基础】1.监督学习和最优化
微信AI
0+阅读 · 2017年6月7日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
5+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
微信扫码咨询专知VIP会员