会员服务 ·

0

想降低云服务的花销？或许深度强化学习能帮到你 | 论文

2017 年 9 月 17 日 量子位 专注报道AI

安妮编译自 arXiv
量子位出品 | 公众号 QbitAI

随着云计算的普遍应用，控制计算成本越来越重要，但有调查显示，30%-45%的云开销被浪费了。一些大企业通常咨询专家控制开支，但一些小企业或个人就无法节省费用了。

近日，研究人员发现深度强化学习算法能平衡云服务性能和开销，用户不用规划如何实现，只需设置他们想达到的效果即可。这项研究大大降低了控制云服务开销的专业门槛。

△ 云计算让共享软硬件资源能按需提供给计算机各种终端和其他设备/图片来自维基百科

研究人员将这项研究的论文《Automated Cloud Provisioning on AWS using Deep Reinforcement Learning》发表在arXiv上，论文由微软的Zhiguang Wang、商业遥感卫星服务商BlackSky的Chul Gwon和Adam Iezzi以及美国马里兰大学的Tim Oates四名研究人员共同完成。

Double Deep Q-learning

为了让用户轻松减少开销，研究人员用了哪些方法呢？

在这篇论文里，研究人员探索了强化学习在云配给上的应用，用户可以制定基于性能和开销的奖励，强化学习算法计算如何去获取奖励。

研究人员用double deep Q-learning算法在CloudSim云计算仿真器上模拟运行效果，结果能够显示强化学习的效果和这种方法的相对优劣。

△ DDQN结构图

上图就是一张基于竞争架构的DDQN（double deep Q-learning network）结构图。SeLU函数激活了四个卷积层，并且没有进行池化操作。研究人员没有在最终输出前插入完全连接层，而是将最后卷积层的平坦特征图减半，以此计算状态和效果。

研究人员发现，这种架构有助于用更少的参数提高稳定性。

亚马逊AWS评测效果

亚马逊网络服务系统（Amazon Web Services，AWS）是亚马逊创建的云计算平台，它提供多种远程Web服务，Amazon EC2与Amazon S3都架构在这个平台上。

△ AWS的环境

在论文中，研究人员展示了从简单的模拟器到CloudSim的迁移学习，之后再从CloudSim迁移到一个真实的AWS云环境的实例。

在AWS上的运行效果受到了运行时间的限制。研究人员在AWS系统上的运行阈值基线和DQN模型的时间只有3周，但运行D3QN的时间只有一个星期。为了帮助初始测试和开发AWS的环境，研究人员故意将tabular-based Q-learner的运行时间缩短了。

上图为运行结果，结果中包含用相同binning的模拟运行，方便研究人员与预期的结果进行比较。正如我们在模拟运行中所观察到的，如果leaner能在AWS上多运行一段时间，就能看到提高。

在实际的AWS环境中添加非零延迟值会影响结果。虽然很难看到奖励增多，随着时间的推移，奖励的变化明显减少了，这意味着性能是可以提高的。

商业机会

外国媒体Architecht在推荐这篇论文时，说它看起来像是个商业机会：

这是一个研究课题，如果有人想做，看起来又有些商业前景。这项研究的本质是训练一个系统，它能判断理想性价比和其他商业指标，比如“尽可能在平均用户响应时间增加不超过2%的情况下降低开销”。

这么有趣的事情，怎么能不看看论文呢？

论文获取地址：

https://arxiv.org/abs/1709.04305

— 完 —

活动报名

加入社群

量子位AI社群8群开始招募啦，欢迎对AI感兴趣的同学，加小助手微信qbitbot3入群；

此外，量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募，面向正在从事相关领域的工程师及研究人员。

进群请加小助手微信号qbitbot3，并务必备注相应群的关键词~通过审核后我们将邀请进群。（专业群审核较严，敬请谅解）

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI

վ'ᴗ' ի 追踪AI技术和产品新动态

登录查看更多

0

相关内容

深度 Q 学习

深度 Q 学习

华为发布《自动驾驶网络解决方案白皮书》

华为发布《自动驾驶网络解决方案白皮书》

专知会员服务

130+阅读 · 2020年5月22日

【2020论文翻译】基于SARSA的深度强化学习的移动边缘计算任务分流和资源分配

【2020论文翻译】基于SARSA的深度强化学习的移动边缘计算任务分流和资源分配

专知会员服务

21+阅读 · 2020年5月20日

【金融强化学习论文】金融资产组合管理问题的深度强化学习框架（A Deep Reinforcement Learning Framework for theFinancial Portfolio Management Problem）

【金融强化学习论文】金融资产组合管理问题的深度强化学习框架（A Deep Reinforcement Learning Framework for theFinancial Portfolio Management Problem）

专知会员服务

55+阅读 · 2019年12月16日

【综述】多智能体深度强化学习综述，附49页PDF

专知会员服务

214+阅读 · 2019年8月30日

斯坦福&谷歌Jeff Dean最新Nature论文：医疗深度学习技术指南（29页综述）

斯坦福&谷歌Jeff Dean最新Nature论文：医疗深度学习技术指南（29页综述）

专知会员服务

63+阅读 · 2019年1月7日

韩松等人提出NN设计新思路：训练一次，全平台应用

韩松等人提出NN设计新思路：训练一次，全平台应用

机器之心

8+阅读 · 2019年8月30日

IDC 2019 年 Q1 全球超融合市场份额：系统硬件 Dell 32.2%；软件 VMware 41.1%

IDC 2019 年 Q1 全球超融合市场份额：系统硬件 Dell 32.2%；软件 VMware 41.1%

云头条

5+阅读 · 2019年6月26日

陈天奇团队推出开源AI芯片栈VTA，降低芯片设计门槛

陈天奇团队推出开源AI芯片栈VTA，降低芯片设计门槛

AI前线

15+阅读 · 2018年7月13日

论文结果难复现？本文教你完美实现深度强化学习算法DQN

论文结果难复现？本文教你完美实现深度强化学习算法DQN

中国人工智能学会

5+阅读 · 2017年11月24日

资源 | 利用深度强化学习框架解决金融投资组合管理问题（附 GitHub 实现）

资源 | 利用深度强化学习框架解决金融投资组合管理问题（附 GitHub 实现）

机器之心

9+阅读 · 2017年11月21日

Efficient Eligibility Traces for Deep Reinforcement Learning

Arxiv

4+阅读 · 2018年10月23日

Fire SSD: Wide Fire Modules based Single Shot Detector on Edge Device

Arxiv

3+阅读 · 2018年10月16日

Learn What Not to Learn: Action Elimination with Deep Reinforcement Learning

Learn What Not to Learn: Action Elimination with Deep Reinforcement Learning

Arxiv

5+阅读 · 2018年9月6日

Deep Reinforcement Learning for List-wise Recommendations

Arxiv

13+阅读 · 2018年1月5日

Fast Linear Model for Knowledge Graph Embeddings

Arxiv

4+阅读 · 2017年10月30日

VIP会员

相关主题

深度 Q 学习

深度强化学习

强化学习算法

相关VIP内容

华为发布《自动驾驶网络解决方案白皮书》

华为发布《自动驾驶网络解决方案白皮书》

专知会员服务

130+阅读 · 2020年5月22日

【2020论文翻译】基于SARSA的深度强化学习的移动边缘计算任务分流和资源分配

【2020论文翻译】基于SARSA的深度强化学习的移动边缘计算任务分流和资源分配

专知会员服务

21+阅读 · 2020年5月20日

【金融强化学习论文】金融资产组合管理问题的深度强化学习框架（A Deep Reinforcement Learning Framework for theFinancial Portfolio Management Problem）

【金融强化学习论文】金融资产组合管理问题的深度强化学习框架（A Deep Reinforcement Learning Framework for theFinancial Portfolio Management Problem）

专知会员服务

55+阅读 · 2019年12月16日

【综述】多智能体深度强化学习综述，附49页PDF

专知会员服务

214+阅读 · 2019年8月30日

斯坦福&谷歌Jeff Dean最新Nature论文：医疗深度学习技术指南（29页综述）

斯坦福&谷歌Jeff Dean最新Nature论文：医疗深度学习技术指南（29页综述）

专知会员服务

63+阅读 · 2019年1月7日

热门VIP内容

开通专知VIP会员享更多权益服务

《基于AI的动态任务分配策略实现多智能体系统有意义人类控制》报告

《超越连接：AI驱动网络未来愿景》最新报告

人工智能赋能多域作战：能力与挑战

《战场空间决策优势：AI基础与应用研究》总结报告

相关资讯

韩松等人提出NN设计新思路：训练一次，全平台应用

韩松等人提出NN设计新思路：训练一次，全平台应用

机器之心

8+阅读 · 2019年8月30日

IDC 2019 年 Q1 全球超融合市场份额：系统硬件 Dell 32.2%；软件 VMware 41.1%

IDC 2019 年 Q1 全球超融合市场份额：系统硬件 Dell 32.2%；软件 VMware 41.1%

云头条

5+阅读 · 2019年6月26日

陈天奇团队推出开源AI芯片栈VTA，降低芯片设计门槛

陈天奇团队推出开源AI芯片栈VTA，降低芯片设计门槛

AI前线

15+阅读 · 2018年7月13日

论文结果难复现？本文教你完美实现深度强化学习算法DQN

论文结果难复现？本文教你完美实现深度强化学习算法DQN

中国人工智能学会

5+阅读 · 2017年11月24日

资源 | 利用深度强化学习框架解决金融投资组合管理问题（附 GitHub 实现）

资源 | 利用深度强化学习框架解决金融投资组合管理问题（附 GitHub 实现）

机器之心

9+阅读 · 2017年11月21日

相关论文

Efficient Eligibility Traces for Deep Reinforcement Learning

Arxiv

4+阅读 · 2018年10月23日

Fire SSD: Wide Fire Modules based Single Shot Detector on Edge Device

Arxiv

3+阅读 · 2018年10月16日

Learn What Not to Learn: Action Elimination with Deep Reinforcement Learning

Learn What Not to Learn: Action Elimination with Deep Reinforcement Learning

Arxiv

5+阅读 · 2018年9月6日

Deep Reinforcement Learning for List-wise Recommendations

Arxiv

13+阅读 · 2018年1月5日

Fast Linear Model for Knowledge Graph Embeddings

Arxiv

4+阅读 · 2017年10月30日

大家都在搜

大型语言模型

蓝牙安全攻防

【论文笔记】用于数据驱动交通预测的扩散卷积循环神经网络（DCRNN）

微信扫码咨询专知VIP会员