Stochastic games with discounted payoff, introduced by Shapley, model adversarial interactions in stochastic environments where two players try to optimize a discounted sum of rewards. In this model, long-term weights are geometrically attenuated based on the delay in their occurrence. We propose a temporally dual notion -- called past-discounting -- where agents have geometrically decaying memory of the rewards encountered during a play of the game. We study objective functions based on past-discounted weight sequences and examine the corresponding stochastic games with liminf, discounted, and mean payoffs. For objectives specified as the limit inferior of past-discounted reward sequences, we show that positional determinacy fails and that optimal strategies may require unbounded memory. To overcome this obstacle, we study an approximate windowed objective based on the idea of using sliding windows of finite length to examine infinite plays. On the other hand, for objectives specified as the discounted and average limits of past-discounted reward sequences we establish determinacy in mixed stationary strategies in the setting of concurrent stochastic games and show how the values of these games may be computed via reductions to standard discounted and mean-payoff games.


翻译:由Shatley介绍的、 模拟对抗性互动在随机环境中的游戏, 有两个玩家试图优化贴现奖励的折扣。 在这个模型中, 长期的重量是几何性的减慢, 其发生时间的延迟。 我们提出了一个时间性的双重概念 -- -- 叫做过去贴现 -- -- 其代理商对游戏游戏中遇到的奖赏记忆的几何性衰减。 我们根据过去折扣的重量序列研究客观的功能, 并检查相应的悬浮、 贴现和平均报酬的相近性游戏。 对于作为过去折扣奖励序列下限的目标, 我们显示定位确定性失灵, 最佳策略可能需要无限制的记忆。 为了克服这一障碍, 我们研究一个近似窗口化的目标, 其基础是使用有限长度的滑动窗口来检查无限游戏。 另一方面, 为了确定过去折扣和平均的奖赏序列的折扣和平均限度, 我们在设定同时折扣游戏和标准游戏的混合固定策略中设定了确定性。

0
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2021年8月8日
最新《深度学习人脸识别》综述论文,
专知会员服务
67+阅读 · 2020年8月10日
深度学习目标检测方法综述
专知会员服务
259+阅读 · 2020年8月1日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
【新书】Python编程基础,669页pdf
专知会员服务
186+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
99+阅读 · 2019年10月9日
谷歌足球游戏环境使用介绍
CreateAMind
31+阅读 · 2019年6月27日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
38+阅读 · 2021年8月31日
Arxiv
7+阅读 · 2020年10月7日
Arxiv
6+阅读 · 2018年12月10日
VIP会员
相关VIP内容
专知会员服务
50+阅读 · 2021年8月8日
最新《深度学习人脸识别》综述论文,
专知会员服务
67+阅读 · 2020年8月10日
深度学习目标检测方法综述
专知会员服务
259+阅读 · 2020年8月1日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
【新书】Python编程基础,669页pdf
专知会员服务
186+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
99+阅读 · 2019年10月9日
相关资讯
谷歌足球游戏环境使用介绍
CreateAMind
31+阅读 · 2019年6月27日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员