资源 | 英特尔Nervana发布强化学习库Coach：支持多种价值与策略优化算法 - 专知

会员服务 ·

0

资源 | 英特尔Nervana发布强化学习库Coach：支持多种价值与策略优化算法

2017 年 10 月 22 日 机器之心

选自Nervana

机器之心编译

参与：李亚洲、刘晓坤

近日，英特尔 Nervana 发布了一个强化学习库 Coach，能够支持许多顶级的强化学习算法。

项目地址：http://coach.nervanasys.com

什么是 Coach

动机

开发 Coach 的动机是，通过掌控多核 CPU 处理的能力来训练、评估强化学习智能体，从而获得顶尖的结果。也是为了通过模块化设计和对 API 的简洁设定，提供简化新算法开发的沙盒。

解决方案

Coach 是一个 Python 环境，以一种模块化的方式对智能体与环境之间的交互建模。有了 Coach，我们就有可能通过结合不同的模块对智能体建模了，也能在不同的环境中训练智能体。可使用的环境，让我们能在不同的实务领域测试智能体，比如机器人、自动驾驶汽车、游戏等。Coach 能够收集训练过程的统计数据，并支持高级可视化技术，从而 debug 训练的智能体。

Coach 的设计

网络的设计

每一个智能体至少有一个神经网络作为函数近似器用于选择 action。该网络是模块化设计的以便在不同的智能体中复用。它由三个主要部分组成：

输入 Embedder（Input Embedder）- 这是网络的第一个阶段，用于将输入转换为一个特征向量表示。有可能用于组合任意支持的 embedder 的多个实例，以允许输入的多种组合。

有两种主要的输入 embedder：

图像 embedder-卷积神经网络
向量 embedder-多层感知机

中间件（Middleware）- 中间件获取输入 embedder 的输出，并在其被发送到输出头之前，转化为一个不同的表示域。中间件的目标是使处理多个输入 embedder 的组合输出成为可能，并对它们进行额外的处理。它可能是一个 LSTM 或者仅仅是一个朴素的全连接层。

输出头（Output Heads）- 输出头用于预测网络的值，可能包括行动分值（action-values）、状态值（state-values）或一个策略（policy）。输入 embedder 的功能允许在同一个网络中使用多个输出头。例如，Actor Critic 智能体组合了两个输出头，一个策略头和一个状态值头。此外，输出头能根据头类型定义损失函数。

保持网络拷贝同步

大多数强化学习智能体包含网络的多个拷贝。这些拷贝将作为主网络的副本并以不同的速率更新，通常在本地或者在并行的工作系统中同步。为了使拷贝的同步更容易，将这些拷贝封装为简化的 API，从而可使智能体忽略背后复杂的细节。

支持的算法

Coach 支持许多顶级的强化学习算法，主要可分为两类：价值优化与策略优化，如下图所示。

原文文档地址：http://coach.nervanasys.com

本文为机器之心编译，转载请联系本公众号获得授权。

✄------------------------------------------------

加入机器之心（全职记者/实习生）：hr@jiqizhixin.com

投稿或寻求报道：content@jiqizhixin.com

广告&商务合作：bd@jiqizhixin.com

登录查看更多

4

相关内容

智能体

智能体，顾名思义，就是具有智能的实体，英文名是Agent。

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知会员服务

81+阅读 · 2020年7月2日

【清华大学】低资源语言:回顾综述和未来的挑战，14页pdf

【清华大学】低资源语言:回顾综述和未来的挑战，14页pdf

专知会员服务

37+阅读 · 2020年6月16日

华为发布《自动驾驶网络解决方案白皮书》

华为发布《自动驾驶网络解决方案白皮书》

专知会员服务

130+阅读 · 2020年5月22日

【2020论文翻译】基于SARSA的深度强化学习的移动边缘计算任务分流和资源分配

【2020论文翻译】基于SARSA的深度强化学习的移动边缘计算任务分流和资源分配

专知会员服务

21+阅读 · 2020年5月20日

【CVPR2020】我们能用强化学习来学习图模型推断的启发规则吗?

专知会员服务

43+阅读 · 2020年5月5日

《强化学习》简介小册，24页pdf

《强化学习》简介小册，24页pdf

专知会员服务

277+阅读 · 2020年4月19日

北航发布「深度学习人群计数」2020综述论文，220+基于CNN的密度估计和人群计数的方法大调研

北航发布「深度学习人群计数」2020综述论文，220+基于CNN的密度估计和人群计数的方法大调研

专知会员服务

41+阅读 · 2020年4月1日

【强化学习资源集合】Awesome Reinforcement Learning

【强化学习资源集合】Awesome Reinforcement Learning

专知会员服务

97+阅读 · 2019年12月23日

MIT新书《强化学习与最优控制》

MIT新书《强化学习与最优控制》

专知会员服务

280+阅读 · 2019年10月9日

【综述】多智能体深度强化学习综述，附49页PDF

专知会员服务

213+阅读 · 2019年8月30日

DeepMind 一次性开源 3 个新框架！深度强化学习应用落地即将迎来春天？

DeepMind 一次性开源 3 个新框架！深度强化学习应用落地即将迎来春天？

AI科技评论

9+阅读 · 2019年9月19日

DeepMind开源强化学习游戏框架，25款线上游戏等你来挑战

DeepMind开源强化学习游戏框架，25款线上游戏等你来挑战

机器之心

9+阅读 · 2019年8月28日

资源 | FAIR & NYU开发XNLI语料库：15种语言（含低资源语言）

资源 | FAIR & NYU开发XNLI语料库：15种语言（含低资源语言）

机器之心

3+阅读 · 2018年11月12日

一文了解强化学习

一文了解强化学习

AI100

15+阅读 · 2018年8月20日

干货 | 受限玻尔兹曼机基础教程

干货 | 受限玻尔兹曼机基础教程

机器学习算法与Python学习

7+阅读 · 2018年3月27日

入门 | 从Q学习到DDPG，一文简述多种强化学习算法

入门 | 从Q学习到DDPG，一文简述多种强化学习算法

机器之心

17+阅读 · 2018年1月21日

DeepMind发布《星际争霸 II》深度学习环境

DeepMind发布《星际争霸 II》深度学习环境

人工智能学家

9+阅读 · 2017年9月22日

资源 | ChainerCV：基于Chainer的深度学习计算机视觉实用库（内含工具集）

资源 | ChainerCV：基于Chainer的深度学习计算机视觉实用库（内含工具集）

机器之心

3+阅读 · 2017年8月16日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

深度 | 基于TensorFlow打造强化学习API：TensorForce是怎样炼成的？

深度 | 基于TensorFlow打造强化学习API：TensorForce是怎样炼成的？

机器之心

4+阅读 · 2017年7月16日

Learning Heuristics over Large Graphs via Deep Reinforcement Learning

Arxiv

12+阅读 · 2019年3月8日

Generative Graph Convolutional Network for Growing Graphs

Generative Graph Convolutional Network for Growing Graphs

Arxiv

3+阅读 · 2019年3月6日

Star-Transformer

Star-Transformer

Arxiv

5+阅读 · 2019年2月28日

Accelerated Methods for Deep Reinforcement Learning

Accelerated Methods for Deep Reinforcement Learning

Arxiv

6+阅读 · 2019年1月10日

Parsimonious Bayesian deep networks

Parsimonious Bayesian deep networks

Arxiv

5+阅读 · 2018年10月17日

Fire SSD: Wide Fire Modules based Single Shot Detector on Edge Device

Arxiv

3+阅读 · 2018年10月16日

Accelerated Randomized Coordinate Descent Algorithms for Stochastic Optimization and Online Learning

Arxiv

9+阅读 · 2018年7月16日

Relational Deep Reinforcement Learning

Relational Deep Reinforcement Learning

Arxiv

10+阅读 · 2018年6月28日

Constraint and Mathematical Programming Models for Integrated Port Container Terminal Operations

Arxiv

3+阅读 · 2017年12月14日

SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient

Arxiv

5+阅读 · 2017年8月25日

VIP会员

相关主题

英特尔 (Intel)

强化学习算法

相关VIP内容

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知会员服务

81+阅读 · 2020年7月2日

【清华大学】低资源语言:回顾综述和未来的挑战，14页pdf

【清华大学】低资源语言:回顾综述和未来的挑战，14页pdf

专知会员服务

37+阅读 · 2020年6月16日

华为发布《自动驾驶网络解决方案白皮书》

华为发布《自动驾驶网络解决方案白皮书》

专知会员服务

130+阅读 · 2020年5月22日

【2020论文翻译】基于SARSA的深度强化学习的移动边缘计算任务分流和资源分配

【2020论文翻译】基于SARSA的深度强化学习的移动边缘计算任务分流和资源分配

专知会员服务

21+阅读 · 2020年5月20日

【CVPR2020】我们能用强化学习来学习图模型推断的启发规则吗?

专知会员服务

43+阅读 · 2020年5月5日

《强化学习》简介小册，24页pdf

《强化学习》简介小册，24页pdf

专知会员服务

277+阅读 · 2020年4月19日

北航发布「深度学习人群计数」2020综述论文，220+基于CNN的密度估计和人群计数的方法大调研

北航发布「深度学习人群计数」2020综述论文，220+基于CNN的密度估计和人群计数的方法大调研

专知会员服务

41+阅读 · 2020年4月1日

【强化学习资源集合】Awesome Reinforcement Learning

【强化学习资源集合】Awesome Reinforcement Learning

专知会员服务

97+阅读 · 2019年12月23日

MIT新书《强化学习与最优控制》

MIT新书《强化学习与最优控制》

专知会员服务

280+阅读 · 2019年10月9日

【综述】多智能体深度强化学习综述，附49页PDF

专知会员服务

213+阅读 · 2019年8月30日

热门VIP内容

开通专知VIP会员享更多权益服务

【牛津博士论文】零样本强化学习综述

《美军条令：陆军指挥官与规划人员地理空间指南》60页

战术边缘指挥控制：防务面临的核心挑战

迈向开放世界检测：综述

相关资讯

DeepMind 一次性开源 3 个新框架！深度强化学习应用落地即将迎来春天？

DeepMind 一次性开源 3 个新框架！深度强化学习应用落地即将迎来春天？

AI科技评论

9+阅读 · 2019年9月19日

DeepMind开源强化学习游戏框架，25款线上游戏等你来挑战

DeepMind开源强化学习游戏框架，25款线上游戏等你来挑战

机器之心

9+阅读 · 2019年8月28日

资源 | FAIR & NYU开发XNLI语料库：15种语言（含低资源语言）

资源 | FAIR & NYU开发XNLI语料库：15种语言（含低资源语言）

机器之心

3+阅读 · 2018年11月12日

一文了解强化学习

一文了解强化学习

AI100

15+阅读 · 2018年8月20日

干货 | 受限玻尔兹曼机基础教程

干货 | 受限玻尔兹曼机基础教程

机器学习算法与Python学习

7+阅读 · 2018年3月27日

入门 | 从Q学习到DDPG，一文简述多种强化学习算法

入门 | 从Q学习到DDPG，一文简述多种强化学习算法

机器之心

17+阅读 · 2018年1月21日

DeepMind发布《星际争霸 II》深度学习环境

DeepMind发布《星际争霸 II》深度学习环境

人工智能学家

9+阅读 · 2017年9月22日

资源 | ChainerCV：基于Chainer的深度学习计算机视觉实用库（内含工具集）

资源 | ChainerCV：基于Chainer的深度学习计算机视觉实用库（内含工具集）

机器之心

3+阅读 · 2017年8月16日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

深度 | 基于TensorFlow打造强化学习API：TensorForce是怎样炼成的？

深度 | 基于TensorFlow打造强化学习API：TensorForce是怎样炼成的？

机器之心

4+阅读 · 2017年7月16日

相关论文

Learning Heuristics over Large Graphs via Deep Reinforcement Learning

Arxiv

12+阅读 · 2019年3月8日

Generative Graph Convolutional Network for Growing Graphs

Generative Graph Convolutional Network for Growing Graphs

Arxiv

3+阅读 · 2019年3月6日

Star-Transformer

Star-Transformer

Arxiv

5+阅读 · 2019年2月28日

Accelerated Methods for Deep Reinforcement Learning

Accelerated Methods for Deep Reinforcement Learning

Arxiv

6+阅读 · 2019年1月10日

Parsimonious Bayesian deep networks

Parsimonious Bayesian deep networks

Arxiv

5+阅读 · 2018年10月17日

Fire SSD: Wide Fire Modules based Single Shot Detector on Edge Device

Arxiv

3+阅读 · 2018年10月16日

Accelerated Randomized Coordinate Descent Algorithms for Stochastic Optimization and Online Learning

Arxiv

9+阅读 · 2018年7月16日

Relational Deep Reinforcement Learning

Relational Deep Reinforcement Learning

Arxiv

10+阅读 · 2018年6月28日

Constraint and Mathematical Programming Models for Integrated Port Container Terminal Operations

Arxiv

3+阅读 · 2017年12月14日

SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient

Arxiv

5+阅读 · 2017年8月25日

大家都在搜

CMU博士论文

无人机集群

国防科技创新

软件无线电

久别重逢话双塔

无人机测控通信自组网技术综述

微信扫码咨询专知VIP会员