会员服务 ·

0

令人激动！谷歌推强化学习新框架「多巴胺」，基于TensorFlow，已开源丨附github

2018 年 8 月 28 日 量子位

郭一璞发自凹非寺
量子位报道 | 公众号 QbitAI

上周那个在DOTA2 TI8赛场上“装逼失败”的OpenAI Five，背后是强化学习的助推。

其实不仅仅是OpenAI Five，下围棋的AlphaGo和AlphaGo Zero、玩雅达利街机游戏的DeepMind DQN（deep Q-network），都离不开强化学习（Reinforcement Learning）。

现在，谷歌发布了一个基于TensorFlow的强化学习开源框架，名叫Dopamine。

另外，还有一组Dopamine的教学colab。

和它的名字Dopamine（多巴胺）一样，新框架听上去就令人激动。

清晰，简洁，易用

新框架在设计时就秉承着清晰简洁的理念，所以代码相对紧凑，大约是15个Python文件，基于Arcade Learning Environment (ALE)基准，整合了DQN、C51、 Rainbow agent精简版和ICML 2018上的Implicit Quantile Networks。

可再现

新框架中代码被完整的测试覆盖，可作为补充文档的形式，也可以用ALE来评估。

基准测试

为了让研究人员能快速比较自己的想法和已有的方法，该框架提供了DQN、C51、 Rainbow agent精简版和Implicit Quantile Networks的玩ALE基准下的那60个雅达利游戏的完整训练数据，以Python pickle文件和JSON数据文件的格式存储，并且放到了一个可视化网页中。

另外，新框架中还有训练好的深度网络、原始统计日志，以及TensorBoard标注好的TensorFlow事件文件。

传送门

开源框架资源

Dopamine谷歌博客：
https://ai.googleblog.com/2018/08/introducing-new-framework-for-flexible.html

Dopamine github下载：
https://github.com/google/dopamine/tree/master/docs#downloads

colabs：
https://github.com/google/dopamine/blob/master/dopamine/colab/README.md

游戏训练可视化网页：
https://google.github.io/dopamine/baselines/plots.html

相关资料

ALE基准：
https://arxiv.org/abs/1207.4708

DQN（DeepMind）：
https://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf

C51（ICML 2017）：
https://arxiv.org/abs/1707.06887

Rainbow：
https://arxiv.org/abs/1710.02298

Implicit Quantile Networks（ICML 2018）：
https://arxiv.org/abs/1806.06923

— 完 —

加入社群

量子位AI社群19群开始招募啦，欢迎对AI感兴趣的同学，在量子位公众号（QbitAI）对话界面回复关键字“交流群”，获取入群方式；

此外，量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募，面向正在从事相关领域的工程师及研究人员。

进专业群请在量子位公众号（QbitAI）对话界面回复关键字“专业群”，获取入群方式。（专业群审核较严，敬请谅解）

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

登录查看更多

2

相关内容

强化学习

强化学习（RL）是机器学习的一个领域，与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外，强化学习是三种基本的机器学习范式之一。强化学习与监督学习的不同之处在于，不需要呈现带标签的输入/输出对，也不需要显式纠正次优动作。相反，重点是在探索（未知领域）和利用（当前知识）之间找到平衡。该环境通常以马尔可夫决策过程（MDP）的形式陈述，因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于，后者不假设MDP的确切数学模型，并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

谷歌推出量子机器学习框架TFQ-TensorFlow Quantum，一个可训练量子模型的机器学习框架

谷歌推出量子机器学习框架TFQ-TensorFlow Quantum，一个可训练量子模型的机器学习框架

专知会员服务

34+阅读 · 2020年3月10日

《强化学习—使用 Open AI、TensorFlow和Keras实现》174页pdf

《强化学习—使用 Open AI、TensorFlow和Keras实现》174页pdf

专知会员服务

139+阅读 · 2020年3月1日

【Google AI】开源NoisyStudent：自监督图像分类

【Google AI】开源NoisyStudent：自监督图像分类

专知会员服务

55+阅读 · 2020年2月18日

【新书】Python强化学习-基于Tensorflow与Keras和OpenAI Gym实战, 177页pdf

【新书】Python强化学习-基于Tensorflow与Keras和OpenAI Gym实战, 177页pdf

专知会员服务

184+阅读 · 2020年1月17日

一网打尽！100+深度学习模型TensorFlow与Pytorch代码实现集合

一网打尽！100+深度学习模型TensorFlow与Pytorch代码实现集合

专知会员服务

142+阅读 · 2020年1月3日

TensorFlow深度学习，从线性回归到强化学习的深度学习（TensorFlow for Deep Learning From Linear Regression to Reinforcement Learning），附页256页pdf

TensorFlow深度学习，从线性回归到强化学习的深度学习（TensorFlow for Deep Learning From Linear Regression to Reinforcement Learning），附页256页pdf

专知会员服务

46+阅读 · 2020年1月1日

【强化学习资源集合】Awesome Reinforcement Learning

【强化学习资源集合】Awesome Reinforcement Learning

专知会员服务

97+阅读 · 2019年12月23日

【干货】谷歌Joshua Gordon 《TensorFlow 2.0讲解》，63页PPT

【干货】谷歌Joshua Gordon 《TensorFlow 2.0讲解》，63页PPT

专知会员服务

28+阅读 · 2019年11月2日

TensorFlow官方开源的神经结构学习（Neural Structured Learning）库

TensorFlow官方开源的神经结构学习（Neural Structured Learning）库

专知会员服务

18+阅读 · 2019年10月18日

TensorFlow 2.0 学习资源汇总

TensorFlow 2.0 学习资源汇总

专知会员服务

67+阅读 · 2019年10月9日

要替代 TensorFlow？谷歌开源机器学习库 JAX

要替代 TensorFlow？谷歌开源机器学习库 JAX

新智元

3+阅读 · 2018年12月14日

OpenAI官方发布：强化学习中的关键论文

OpenAI官方发布：强化学习中的关键论文

专知

14+阅读 · 2018年12月12日

资源 | 谷歌开源AdaNet：基于TensorFlow的AutoML框架

资源 | 谷歌开源AdaNet：基于TensorFlow的AutoML框架

极市平台

4+阅读 · 2018年11月1日

10月机器学习开源项目Top10

10月机器学习开源项目Top10

机器学习算法与Python学习

3+阅读 · 2018年10月30日

DeepMind开源图深度学习(GraphDL)工具包，基于Tensorflow和Sonnet

DeepMind开源图深度学习(GraphDL)工具包，基于Tensorflow和Sonnet

专知

6+阅读 · 2018年10月19日

大家都收藏了的最新开源项目Top12！CV、NLP、机器学习一应俱全

大家都收藏了的最新开源项目Top12！CV、NLP、机器学习一应俱全

AI100

7+阅读 · 2018年10月14日

Github 项目推荐 | 用 TensorFlow 实现的模型集合

Github 项目推荐 | 用 TensorFlow 实现的模型集合

AI研习社

5+阅读 · 2018年2月14日

资源 | GitHub上的五大开源机器学习项目

资源 | GitHub上的五大开源机器学习项目

机器之心

9+阅读 · 2017年11月9日

开发 | TensorFlow Agents日前开源，轻松在TF中构建并行强化学习算法

开发 | TensorFlow Agents日前开源，轻松在TF中构建并行强化学习算法

AI科技评论

9+阅读 · 2017年9月15日

Caffe2推出强化学习库，包含多个基于Caffe2的RL实现

Caffe2推出强化学习库，包含多个基于Caffe2的RL实现

量子位

6+阅读 · 2017年9月15日

CURL: Contrastive Unsupervised Representations for Reinforcement Learning

Arxiv

17+阅读 · 2020年4月28日

Heterogeneous Relational Reasoning in Knowledge Graphs with Reinforcement Learning

Heterogeneous Relational Reasoning in Knowledge Graphs with Reinforcement Learning

Arxiv

10+阅读 · 2020年3月12日

Deep High-Resolution Representation Learning for Human Pose Estimation

Arxiv

5+阅读 · 2019年2月25日

Generalization and Regularization in DQN

Generalization and Regularization in DQN

Arxiv

6+阅读 · 2019年1月30日

CIRL: Controllable Imitative Reinforcement Learning for Vision-based Self-driving

CIRL: Controllable Imitative Reinforcement Learning for Vision-based Self-driving

Arxiv

8+阅读 · 2018年7月10日

Auto Deep Compression by Reinforcement Learning Based Actor-Critic Structure

Auto Deep Compression by Reinforcement Learning Based Actor-Critic Structure

Arxiv

3+阅读 · 2018年7月8日

Learning to Update for Object Tracking

Arxiv

8+阅读 · 2018年6月19日

Relational Deep Reinforcement Learning

Arxiv

5+阅读 · 2018年6月5日

Human Interaction with Recommendation Systems

Arxiv

6+阅读 · 2018年3月28日

Learning Intrinsic Sparse Structures within Long Short-Term Memory

Arxiv

4+阅读 · 2018年1月30日

VIP会员

相关主题

纽约州立大学布法罗分校

相关VIP内容

谷歌推出量子机器学习框架TFQ-TensorFlow Quantum，一个可训练量子模型的机器学习框架

谷歌推出量子机器学习框架TFQ-TensorFlow Quantum，一个可训练量子模型的机器学习框架

专知会员服务

34+阅读 · 2020年3月10日

《强化学习—使用 Open AI、TensorFlow和Keras实现》174页pdf

《强化学习—使用 Open AI、TensorFlow和Keras实现》174页pdf

专知会员服务

139+阅读 · 2020年3月1日

【Google AI】开源NoisyStudent：自监督图像分类

【Google AI】开源NoisyStudent：自监督图像分类

专知会员服务

55+阅读 · 2020年2月18日

【新书】Python强化学习-基于Tensorflow与Keras和OpenAI Gym实战, 177页pdf

【新书】Python强化学习-基于Tensorflow与Keras和OpenAI Gym实战, 177页pdf

专知会员服务

184+阅读 · 2020年1月17日

一网打尽！100+深度学习模型TensorFlow与Pytorch代码实现集合

一网打尽！100+深度学习模型TensorFlow与Pytorch代码实现集合

专知会员服务

142+阅读 · 2020年1月3日

TensorFlow深度学习，从线性回归到强化学习的深度学习（TensorFlow for Deep Learning From Linear Regression to Reinforcement Learning），附页256页pdf

TensorFlow深度学习，从线性回归到强化学习的深度学习（TensorFlow for Deep Learning From Linear Regression to Reinforcement Learning），附页256页pdf

专知会员服务

46+阅读 · 2020年1月1日

【强化学习资源集合】Awesome Reinforcement Learning

【强化学习资源集合】Awesome Reinforcement Learning

专知会员服务

97+阅读 · 2019年12月23日

【干货】谷歌Joshua Gordon 《TensorFlow 2.0讲解》，63页PPT

【干货】谷歌Joshua Gordon 《TensorFlow 2.0讲解》，63页PPT

专知会员服务

28+阅读 · 2019年11月2日

TensorFlow官方开源的神经结构学习（Neural Structured Learning）库

TensorFlow官方开源的神经结构学习（Neural Structured Learning）库

专知会员服务

18+阅读 · 2019年10月18日

TensorFlow 2.0 学习资源汇总

TensorFlow 2.0 学习资源汇总

专知会员服务

67+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

人工智能治理的未来

模态感知的特征匹配：单一模态与跨模态技术的全面综述

无监督行人重识别研究综述

【牛津博士论文】面向神经影像应用的可扩展且可解释的空间模型

相关资讯

要替代 TensorFlow？谷歌开源机器学习库 JAX

要替代 TensorFlow？谷歌开源机器学习库 JAX

新智元

3+阅读 · 2018年12月14日

OpenAI官方发布：强化学习中的关键论文

OpenAI官方发布：强化学习中的关键论文

专知

14+阅读 · 2018年12月12日

资源 | 谷歌开源AdaNet：基于TensorFlow的AutoML框架

资源 | 谷歌开源AdaNet：基于TensorFlow的AutoML框架

极市平台

4+阅读 · 2018年11月1日

10月机器学习开源项目Top10

10月机器学习开源项目Top10

机器学习算法与Python学习

3+阅读 · 2018年10月30日

DeepMind开源图深度学习(GraphDL)工具包，基于Tensorflow和Sonnet

DeepMind开源图深度学习(GraphDL)工具包，基于Tensorflow和Sonnet

专知

6+阅读 · 2018年10月19日

大家都收藏了的最新开源项目Top12！CV、NLP、机器学习一应俱全

大家都收藏了的最新开源项目Top12！CV、NLP、机器学习一应俱全

AI100

7+阅读 · 2018年10月14日

Github 项目推荐 | 用 TensorFlow 实现的模型集合

Github 项目推荐 | 用 TensorFlow 实现的模型集合

AI研习社

5+阅读 · 2018年2月14日

资源 | GitHub上的五大开源机器学习项目

资源 | GitHub上的五大开源机器学习项目

机器之心

9+阅读 · 2017年11月9日

开发 | TensorFlow Agents日前开源，轻松在TF中构建并行强化学习算法

开发 | TensorFlow Agents日前开源，轻松在TF中构建并行强化学习算法

AI科技评论

9+阅读 · 2017年9月15日

Caffe2推出强化学习库，包含多个基于Caffe2的RL实现

Caffe2推出强化学习库，包含多个基于Caffe2的RL实现

量子位

6+阅读 · 2017年9月15日

相关论文

CURL: Contrastive Unsupervised Representations for Reinforcement Learning

Arxiv

17+阅读 · 2020年4月28日

Heterogeneous Relational Reasoning in Knowledge Graphs with Reinforcement Learning

Heterogeneous Relational Reasoning in Knowledge Graphs with Reinforcement Learning

Arxiv

10+阅读 · 2020年3月12日

Deep High-Resolution Representation Learning for Human Pose Estimation

Arxiv

5+阅读 · 2019年2月25日

Generalization and Regularization in DQN

Generalization and Regularization in DQN

Arxiv

6+阅读 · 2019年1月30日

CIRL: Controllable Imitative Reinforcement Learning for Vision-based Self-driving

CIRL: Controllable Imitative Reinforcement Learning for Vision-based Self-driving

Arxiv

8+阅读 · 2018年7月10日

Auto Deep Compression by Reinforcement Learning Based Actor-Critic Structure

Auto Deep Compression by Reinforcement Learning Based Actor-Critic Structure

Arxiv

3+阅读 · 2018年7月8日

Learning to Update for Object Tracking

Arxiv

8+阅读 · 2018年6月19日

Relational Deep Reinforcement Learning

Arxiv

5+阅读 · 2018年6月5日

Human Interaction with Recommendation Systems

Arxiv

6+阅读 · 2018年3月28日

Learning Intrinsic Sparse Structures within Long Short-Term Memory

Arxiv

4+阅读 · 2018年1月30日

大家都在搜

大型语言模型

久别重逢话双塔

软件无线电

无人机测控通信自组网技术综述

微信扫码咨询专知VIP会员