令人激动!谷歌推强化学习新框架「多巴胺」,基于TensorFlow,已开源丨附github

2018 年 8 月 28 日 量子位
郭一璞 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

上周那个在DOTA2 TI8赛场上“装逼失败”的OpenAI Five,背后是强化学习的助推。

其实不仅仅是OpenAI Five,下围棋的AlphaGo和AlphaGo Zero、玩雅达利街机游戏的DeepMind DQN(deep Q-network),都离不开强化学习(Reinforcement Learning)。



现在,谷歌发布了一个基于TensorFlow的强化学习开源框架,名叫Dopamine

另外,还有一组Dopamine的教学colab。

和它的名字Dopamine(多巴胺)一样,新框架听上去就令人激动。

清晰,简洁,易用

新框架在设计时就秉承着清晰简洁的理念,所以代码相对紧凑,大约是15个Python文件,基于Arcade Learning Environment (ALE)基准,整合了DQN、C51、 Rainbow agent精简版和ICML 2018上的Implicit Quantile Networks。

可再现

新框架中代码被完整的测试覆盖,可作为补充文档的形式,也可以用ALE来评估。

基准测试

为了让研究人员能快速比较自己的想法和已有的方法,该框架提供了DQN、C51、 Rainbow agent精简版和Implicit Quantile Networks的玩ALE基准下的那60个雅达利游戏的完整训练数据,以Python pickle文件和JSON数据文件的格式存储,并且放到了一个可视化网页中。



另外,新框架中还有训练好的深度网络、原始统计日志,以及TensorBoard标注好的TensorFlow事件文件。

传送门

开源框架资源

Dopamine谷歌博客:
https://ai.googleblog.com/2018/08/introducing-new-framework-for-flexible.html

Dopamine github下载:
https://github.com/google/dopamine/tree/master/docs#downloads

colabs:
https://github.com/google/dopamine/blob/master/dopamine/colab/README.md

游戏训练可视化网页:
https://google.github.io/dopamine/baselines/plots.html

相关资料

ALE基准:
https://arxiv.org/abs/1207.4708

DQN(DeepMind):
https://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf

C51(ICML 2017):
https://arxiv.org/abs/1707.06887

Rainbow:
https://arxiv.org/abs/1710.02298

Implicit Quantile Networks(ICML 2018):
https://arxiv.org/abs/1806.06923

加入社群

量子位AI社群19群开始招募啦,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式;


此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。


进专业群请在量子位公众号(QbitAI)对话界面回复关键字“专业群”,获取入群方式。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态


登录查看更多
2

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
《强化学习—使用 Open AI、TensorFlow和Keras实现》174页pdf
专知会员服务
136+阅读 · 2020年3月1日
【Google AI】开源NoisyStudent:自监督图像分类
专知会员服务
54+阅读 · 2020年2月18日
一网打尽!100+深度学习模型TensorFlow与Pytorch代码实现集合
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
93+阅读 · 2019年12月23日
【干货】谷歌Joshua Gordon 《TensorFlow 2.0讲解》,63页PPT
专知会员服务
27+阅读 · 2019年11月2日
TensorFlow 2.0 学习资源汇总
专知会员服务
66+阅读 · 2019年10月9日
要替代 TensorFlow?谷歌开源机器学习库 JAX
新智元
3+阅读 · 2018年12月14日
OpenAI官方发布:强化学习中的关键论文
专知
14+阅读 · 2018年12月12日
资源 | 谷歌开源AdaNet:基于TensorFlow的AutoML框架
极市平台
4+阅读 · 2018年11月1日
10月机器学习开源项目Top10
机器学习算法与Python学习
3+阅读 · 2018年10月30日
Github 项目推荐 | 用 TensorFlow 实现的模型集合
AI研习社
5+阅读 · 2018年2月14日
资源 | GitHub上的五大开源机器学习项目
机器之心
9+阅读 · 2017年11月9日
Generalization and Regularization in DQN
Arxiv
6+阅读 · 2019年1月30日
Arxiv
8+阅读 · 2018年6月19日
Arxiv
5+阅读 · 2018年6月5日
Arxiv
6+阅读 · 2018年3月28日
VIP会员
相关资讯
要替代 TensorFlow?谷歌开源机器学习库 JAX
新智元
3+阅读 · 2018年12月14日
OpenAI官方发布:强化学习中的关键论文
专知
14+阅读 · 2018年12月12日
资源 | 谷歌开源AdaNet:基于TensorFlow的AutoML框架
极市平台
4+阅读 · 2018年11月1日
10月机器学习开源项目Top10
机器学习算法与Python学习
3+阅读 · 2018年10月30日
Github 项目推荐 | 用 TensorFlow 实现的模型集合
AI研习社
5+阅读 · 2018年2月14日
资源 | GitHub上的五大开源机器学习项目
机器之心
9+阅读 · 2017年11月9日
Top
微信扫码咨询专知VIP会员