In this paper, we bring the celebrated max-weight features (myopic and discrete actions) to mainstream convex optimization. Myopic actions are important in control because decisions need to be made in an online manner and without knowledge of future events, and discrete actions because many systems have a finite (so non-convex) number of control decisions. For example, whether to transmit a packet or not in communication networks. Our results show that these two features can be encompassed in the subgradient method for the Lagrange dual problem by the use of stochastic and $\epsilon$-subgradients. One of the appealing features of our approach is that it decouples the choice of a control action from a specific choice of subgradient, which allows us to design control policies without changing the underlying convex updates. Two classes of discrete control policies are presented: one that can make discrete actions by looking only at the system's current state, and another that selects actions using blocks. The latter class is useful for handling systems that have constraints on the order in which actions are selected.


翻译:在本文中, 我们将已知的最大重量特性( 中位和离散动作) 引入主流 convex 优化 。 Myopic 动作在控制中很重要, 因为决定需要以在线方式做出, 并且对未来事件不知情, 并且由于许多系统有一定数量( 也就是非 convex ) 的控制决定, 以及离散动作。 例如, 是否传输一个软件包, 是否在通信网络中 。 我们的结果表明, 这两种特性可以通过使用 stopchectic 和 $\ epsilon$- 子梯度来包含在 Lagrange 双重问题的子梯度方法中。 我们方法的一个吸引性特征是, 它将控制动作的选择与特定的子梯度选择区分开来, 这使得我们可以设计控制策略而不改变 基本 convex 更新 。 提供了两种离散控制政策类别: 一种只能通过只查看系统当前状态来进行离散动作, 另一种可以选择使用块动作 。 后一类可用于处理对选择动作的顺序有限制的系统 。

0
下载
关闭预览

相关内容

因果图,Causal Graphs,52页ppt
专知会员服务
249+阅读 · 2020年4月19日
深度强化学习策略梯度教程,53页ppt
专知会员服务
183+阅读 · 2020年2月1日
强化学习最新教程,17页pdf
专知会员服务
180+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
随波逐流:Similarity-Adaptive and Discrete Optimization
我爱读PAMI
5+阅读 · 2018年2月6日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
5+阅读 · 2018年5月1日
Arxiv
6+阅读 · 2018年4月24日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
随波逐流:Similarity-Adaptive and Discrete Optimization
我爱读PAMI
5+阅读 · 2018年2月6日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员