Caffe2推出强化学习库，包含多个基于Caffe2的RL实现

会员服务 ·

Caffe2推出强化学习库，包含多个基于Caffe2的RL实现

2017 年 9 月 15 日 量子位 专注报道AI

安妮编译自 Caffe2.ai
量子位出品 | 公众号 QbitAI

今年4月，Facebook正式发布了轻量化和模块化的深度学习框架Caffe2。将近5个月后今天，Caffe2又推出了一组强化学习库RL_Caffe2。

强化学习（Reinforcement learning,RL）是机器学习的一个领域，它想教会智能体动作和行为的关系，并在环境中持续一段时间后将奖励最大化。

智能体可以是游戏代理、推荐系统、通知机器人或其他的决策系统。奖励可以是游戏中的点数、或者是网站上更多的参与度。

这个开源的Caffe2 RL框架中包含了一些在OpenAI Gym环境下基于Caffe2的RL实现：

1.DQN

一种Deep Q Learning网络的实现：

https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf.

2.SARSA

这是假设输入是既定策略（on-policy）的简化的DQN:

生成数据的策略是实时更新的。SARSA的优点是在训练过程中，我们无需了解可能的动作，只需知道采取了行动就好了。

3.Actor-Critic

Actor Critic模型的实现：

https://arxiv.org/pdf/1509.02971.pdf

RL_Caffe2 GitHub地址：

https://github.com/caffe2/reinforcement-learning-models

无独有偶，几日前谷歌TensorFlow中构建并行强化学习算法的基础架构范例TensorFlow Agents也开源了。

TensorFlow Agents将OpenAI Gym的接口扩展到多个并行环境，用户可在TensorFlow中训练智能体并执行批量运算。此外，研究人员还提供了近端策略优化（Proximal Policy Optimization，PPO）中的实现BatchPPO。

TensorFlow Agents GitHub 地址：

https://github.com/tensorflow/agents

相关内容

Caffe

关注 14

Caffe

【ICML2020】用于强化学习的对比无监督表示嵌入

专知会员服务

28+阅读 · 2020年7月6日

【CVPR2020】我们能用强化学习来学习图模型推断的启发规则吗?

专知会员服务

43+阅读 · 2020年5月5日

《强化学习》简介小册，24页pdf

专知会员服务

280+阅读 · 2020年4月19日

《强化学习—使用 Open AI、TensorFlow和Keras实现》174页pdf

专知会员服务

139+阅读 · 2020年3月1日

【新书】Python强化学习-基于Tensorflow与Keras和OpenAI Gym实战, 177页pdf

专知会员服务

185+阅读 · 2020年1月17日

PyTorch实现多种深度强化学习算法

专知

36+阅读 · 2019年1月15日

谷歌开源语义图像分割模型DeepLab-v3+ | 附代码

量子位

3+阅读 · 2018年3月13日

开发 | TensorFlow Agents日前开源，轻松在TF中构建并行强化学习算法

AI科技评论

9+阅读 · 2017年9月15日

【强化学习实战】基于gym和tensorflow的强化学习算法实现

新智元

12+阅读 · 2017年9月12日

多图对比看懂GAN与VAE的各种变体|附论文

量子位

13+阅读 · 2017年9月5日

Playing Text-Adventure Games with Graph-Based Deep Reinforcement Learning

Arxiv

5+阅读 · 2019年3月25日

Image Captioning based on Deep Reinforcement Learning

Arxiv

9+阅读 · 2018年9月13日

CIRL: Controllable Imitative Reinforcement Learning for Vision-based Self-driving

Arxiv

8+阅读 · 2018年7月10日

Human Interaction with Recommendation Systems

Arxiv

6+阅读 · 2018年3月28日

MXNET-MPI: Embedding MPI parallelism in Parameter Server Task Model for scaling Deep Learning

Arxiv

4+阅读 · 2018年1月11日

VIP会员