Multicasting is an efficient technique to simultaneously transmit common messages from the base station (BS) to multiple mobile users (MUs). The multicast scheduling problem over multiple channels, which jointly minimizes the energy consumption of the BS and the latency of serving asynchronized requests from the MUs, is formulated as an infinite-horizon Markov decision process (MDP) with large discrete action space, multiple time-varying constraints, and multiple time-invariant constraints, which has not been efficiently solved in the literatures. To address this problem, this paper proposes a novel algorithm called distribution-embedding multi-agent proximal policy optimization (DE-MAPPO), which consists of two parts: a modified MAPPO module and a distribution-embedding module. The former one modifies MAPPO's offline training and online applying mechanisms to handle the large discrete action space issue and time-varying constraints, and the latter one iteratively adjusts the action distribution to satisfy the time-invariant constraints. Moreover, as a benchmark, a performance upper bound of the considered MDP is derived by solving a two-step optimization problem. Numerical experiments show that the proposed algorithm achieves comparable performance to the derived benchmark in typical scenarios.


翻译:组播是一种有效的技术,可以将基站(BS)的公共消息同时传输给多个移动用户(MUs)。在多个通道上,组播调度问题联合最小化BS的能量消耗和服务于异步请求的MUs的延迟,被建模为一个无限期马尔科夫决策过程(MDP),其具有大的离散动作空间,多个时变约束和多个时不变约束,这在文献中尚未得到有效解决。为了解决这个问题,本文提出了一种称为分布嵌入多智能体近端策略优化(DE-MAPPO)的新算法,包括两部分:修改后的MAPPO模块和分布嵌入模块。前一个修改了MAPPO的离线训练和在线应用机制以处理大的离散行为空间和时变约束问题,后一个则迭代地调整行动分布以满足时不变约束。此外,作为基准,通过解决一个两步优化问题,得出了所考虑的MDP的性能上限。数值实验表明,所提出的算法在典型情况下实现了与导出基准的可比性。

0
下载
关闭预览

相关内容

【硬核书】矩阵代数基础,248页pdf
专知会员服务
85+阅读 · 2021年12月9日
【NeurIPS2020】点针图网络,Pointer Graph Networks
专知会员服务
39+阅读 · 2020年9月27日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【重磅】61篇NIPS2019深度强化学习论文及部分解读
AI科技评论
15+阅读 · 2019年9月9日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
20+阅读 · 2021年9月22日
VIP会员
相关资讯
【重磅】61篇NIPS2019深度强化学习论文及部分解读
AI科技评论
15+阅读 · 2019年9月9日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员