会员服务 ·

DeepMind开源了强化学习库“松露”，团队自身也严重依赖它

2018 年 10 月 18 日 量子位

强化栗发自凹非寺
量子位报道 | 公众号 QbitAI

今天，DeepMind开源了一个基于TensorFlow的强化学习库，名字叫TRFL。

思路是模块化，强调灵活度：如果把造智能体想象成搭积木，许多关键的、常用的木块都在这里集合了：

比如，DQN (深度Q网络) 、DDPG (深度确定策略梯度)，以及IMPALA (重要性加权演员学习者架构) ，都是DeepMind功勋卓著的组件。

库里面的组件，虽然来源各不相同，但都经过严密测试，因而相对可靠；并且只要一个API，对开发者比较友好。

DeepMind团队自身做研究，也严重依赖这个库。

为了那些难以发觉的Bug

这个库，写作TRFL，读作“Truffle”。翻译成中文叫“松露”。

那么，松露为何而生？

交互Bug很隐秘

深度强化学习智能体，里面常常包含大量的交互组件：

至少要有环境，加上价值网络或者策略网络；

通常，还会有环境学习模型 (Learned Model) 、伪奖励函数 (Pseudo-Reward Functions) 、或者重播系统 (Replay System) 这样的部分。

可是，交互组件到底用什么方式交互？论文里一般没有细致的讨论，有bug也很难发现。

为此，OpenAI写过一篇博客，研究了10个热门的强化学习智能体，发现6个都有隐藏bug。

虽然，用一个开源的、完整的智能体，对复现研究成果是有帮助的，但灵活度不够，要修改就很难了。

所以，才有了松露。

损失函数模块化

深度强化学习 (DRL) ，依赖价值网络或策略网络的不断更新。

DeepMind团队发现，比起传统的RL更新，损失函数更加模块化，更容易结合到监督/无监督的目标里去。

松露里包含了许多损失函数和运算，全部在纯TensorFlow里实现。

不是完整算法，但是各自经过严密测试，可以用来搭成完整的智能体。

并且，只要一个API来解决各种核心组件，即便各自来源是天南地北，也很容易互相组合。

松露，营养很丰富

松露里的许多函数和运算，既可以用在经典RL算法里，也可以用在尖端技术上。

基于价值

针对基于价值的强化学习，松露提供了各种TensorFlow运算，用于在离散动作空间 (Discrete Action Spaces) 里学习：时间差分法，Sarsa，Q学习，以及它们的变体。还有连续控制算法 (比如DPG) 需要的运算。

除此之外，也有学习分布式价值函数 (Distributional Value Function) 用的运算。

以上运算都支持批量 (Batches) ，返回的损失可以用TensorFlow优化器来最小化。不论是Transition的批量，还是Trajectory的批量。

基于策略

针对基于策略的强化学习，这里既有工具可以轻松实现在线方法，比如A2C ，也支持离线的修正技术，比如v-trace。

另外，连续动作里策略梯度的计算，松露也支持。

最后的最后，松露还提供辅助的伪奖励函数 (Pseudo-Reward Functions) ，用来提升数据效率。

开源了，并待续

如今，松露已经开源了，传送门在文底。

不过，团队在博客里写到，这不是一次性发布。

因为，DeepMind在做研究的过程中，也非常依赖这个库，所以会持续对它进行维护，也会随时添加新功能。

当然，团队也欢迎强化学习界的小伙伴们，为松露添砖加瓦。

多巴胺也是强化学习库

如果你还记得，今年8月谷歌开源了强化学习框架Dopamine，中文叫多巴胺，也是基于TensorFlow。

名字取自人类大脑奖励机制中的主角物质多巴胺，为了表达神经科学和强化学习之间的缘分联系。

多巴胺框架，也是强调灵活性、稳定性和复现性。

至于，多巴胺和松露之间有怎样的关系，或者怎样的差别，如果你也好奇的话，可以自行探索一下。

松露传送门：
https://github.com/deepmind/trfl/

多巴胺传送门：
https://github.com/google/dopamine

— 完 —

加入社群

量子位AI社群开始招募啦，欢迎对AI感兴趣的同学，在量子位公众号（QbitAI）对话界面回复关键字“交流群”，获取入群方式；

此外，量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募，面向正在从事相关领域的工程师及研究人员。

进专业群请在量子位公众号（QbitAI）对话界面回复关键字“专业群”，获取入群方式。（专业群审核较严，敬请谅解）

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

登录查看更多

相关内容

DeepMind

关注 2

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知会员服务

81+阅读 · 2020年7月2日

最新《神经架构搜索NAS全面综述论文》挑战和解决方案，30页pdf

专知会员服务

121+阅读 · 2020年6月5日

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

专知会员服务

51+阅读 · 2020年5月28日

【IJCAI2020-华为诺亚】面向深度强化学习的策略迁移框架

专知会员服务

28+阅读 · 2020年5月25日

《强化学习》简介小册，24页pdf

专知会员服务

279+阅读 · 2020年4月19日

TensorFlow 2.2为keras.Model加入train_step方法，开发者可自由定义模型自动训练过程

专知会员服务

36+阅读 · 2020年3月27日

【综述】自动驾驶领域中的强化学习，附18页论文下载

专知会员服务

176+阅读 · 2020年2月8日

【新书】Python强化学习-基于Tensorflow与Keras和OpenAI Gym实战, 177页pdf

专知会员服务

185+阅读 · 2020年1月17日

2019必读的十大深度强化学习论文

专知会员服务

59+阅读 · 2020年1月16日

【强化学习】深度强化学习初学者指南

专知会员服务

184+阅读 · 2019年12月14日

DeepMind 一次性开源 3 个新框架！深度强化学习应用落地即将迎来春天？

AI科技评论

9+阅读 · 2019年9月19日

DeepMind开源强化学习游戏框架，25款线上游戏等你来挑战

机器之心

9+阅读 · 2019年8月28日

快速上手深度强化学习？学会TensorForce就够了

新智元

6+阅读 · 2019年3月27日

DeepMind：用PopArt进行多任务深度强化学习

论智

29+阅读 · 2018年9月14日

OpenAI强化学习实战

炼数成金订阅号

9+阅读 · 2018年5月14日

【DeepMind 公开课-深度强化学习教程笔记04】不基于模型的预测

专知

5+阅读 · 2017年10月23日

【强化学习】Keras+OpenAI强化学习实践：行为-评判模型

产业智能官

4+阅读 · 2017年8月17日

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

详解TensorForce: 基于TensorFlow建立强化学习API

机械鸡

5+阅读 · 2017年7月22日

深度 | 基于TensorFlow打造强化学习API：TensorForce是怎样炼成的？

机器之心

4+阅读 · 2017年7月16日

CURL: Contrastive Unsupervised Representations for Reinforcement Learning

Arxiv

17+阅读 · 2020年4月28日

A Survey on Knowledge Graphs: Representation, Acquisition and Applications

Arxiv

93+阅读 · 2020年2月2日

DDTCDR: Deep Dual Transfer Cross Domain Recommendation

Arxiv

5+阅读 · 2019年10月11日

Remedying BiLSTM-CNN Deficiency in Modeling Cross-Context for NER

Arxiv

3+阅读 · 2019年8月29日

FoveaBox: Beyond Anchor-based Object Detector

Arxiv

5+阅读 · 2019年4月8日

Omni-directional Feature Learning for Person Re-identification

Arxiv

3+阅读 · 2018年12月13日

DOLORES: Deep Contextualized Knowledge Graph Embeddings

Arxiv

7+阅读 · 2018年10月31日

Adversarial Binary Coding for Efficient Person Re-identification

Arxiv

4+阅读 · 2018年4月6日

Directional Statistics-based Deep Metric Learning for Image Classification and Retrieval

Arxiv

6+阅读 · 2018年3月28日

Robust event-stream pattern tracking based on correlative filter

Arxiv

10+阅读 · 2018年3月17日

VIP会员

DeepMind开源了强化学习库“松露”，团队自身也严重依赖它

强化栗 发自 凹非寺 量子位 报道 | 公众号 QbitAI

为了那些难以发觉的Bug

交互Bug很隐秘

损失函数模块化

松露，营养很丰富

基于价值

基于策略

开源了，并待续

多巴胺也是强化学习库

相关内容

强化栗发自凹非寺
量子位报道 | 公众号 QbitAI