《重磅消息》深度强化学习入门及进阶课程第二期开课啦

2017 年 9 月 4 日 深度学习与NLP

    人工智能有望在工业、技术和数字革命层面带来前所未有的社会变革。能够进行感测、归因和操作的机器将加快众多领域内大规模问题的解决,这些领域包括科学、金融、医学和教育,进而增强人类的能力,并帮助我们实现更远、更快的发展。受到摩尔定律和海量数据的推动,人工智能成为了当今众多技术创新的核心。


    掌握人工智能、深度学习等核心技术,就掌握了未来互联网技术发展的方向。为此,隆重推出我们的人工智能系列课程之强化学习从入门到进阶,现在开始报名!


    强化学习,是目前 DeepMind 的主攻方向,被 DeepMind 的科学家认为是通往通用智能(General AI)的必经之路。


    普林斯顿大学助理教授王梦迪认为强化学习是人工智能的未来。


    当强化学习与深度学习结合,深度强化学习技术,铸就了围棋上帝 AlphaGO,帮助 OpenAI 在 Dota 比赛中碾压人类顶级玩家。强化学习在金融、游戏 AI、机器人等领域有着广阔的应用前景。掌握深度强化学习技术的工程师,是腾讯、网易游戏 AI 部门、以及大型金融机构的急缺人才,在其职业发展道路中,无疑先人一步。


    探灵教育科技在 8 月初已经成功举办第一期强化学习入门进阶培训课程,受到学员一致好评。我们将在 9 月 16 日、17 日携手机器之心给大家带来强化学习第二期课程,我们在第一期课程的基础上进行了内容升级,增加了编程实践的环节。更好的帮助大家理论、实践、内外兼修。

第一期线下课程现场

具体课程安排如下:


第一天课程安排


第一章 强化学习概述(1 个学时)


1. 强化学习要解决的问题

2. 强化学习的发展历史
3. 强化学习方法的分类
4. 强化学习方法的发展趋势 


教学时间:8:30—9:15

提问和讨论时间:9:15—9:30



第二章 马尔科夫决策过程(2 个学时)


基本概念,马尔科夫性、马尔科夫过程、马尔科夫决策过程

MDP 基本元素:策略、回报、值函数、状态行为值函数

贝尔曼方程、最优策略

强化学习的数学形式化

Python 介绍,及简单的代码演示。

理论教学时间: 9:30—10:30


手把手编程实践课:10:30—11:00

内容:构建机器人找金币和迷宫的 python 环境


第三章 基于模型的动态规划方法(2 个学时)


动态规划概念介绍

策略评估过程介绍

策略改进方法介绍

策略迭代和值迭代

值迭代与最优控制介绍

基于 python 的动态规划方法演示


理论教学时间:11:00—12:00

手把手编程实践课:12:00—12:30

内容:实现基于模型的强化学习算法


第四章 蒙特卡罗方法(2 个学时)


蒙特卡罗策略评估方法

蒙特卡罗策略改进方法

基于蒙特卡罗的强化学习方法

同策略和异策略强化学习

重要性采样

基于 python 的蒙特卡罗强化学习方法演示


理论教学时间:14:00—15:00

手把手编程实践课:15:00—15:30

内容:利用蒙特卡罗方法实现机器人找金币和迷宫


第五章 时间差分方法(2 学时)


DP,MC 和 TD 方法比较

MC 和 TD 方法偏差与方差平衡

同策略 TD 方法:Sarsa 方法

异策略 TD 方法:Qlearning 方法

N 步预测及 的前向和后向观点

基于 python 的 TD 方法实现


理论教学时间:15:30—16:30

手把手编程实践课:16:30—17:00


第六章 Gym 环境构建及强化学习方法实现(2学时)


Gym 环境的安装和测试

Gym 环境创建的关键函数讲解

创建自己的 Gym 环境讲解

基于自己创建的 Gym 环境实现 MC,TD 等算法


手把手编程教学时间:17:00—18:00


第二天课程安排


第七章 值函数逼近方法(2 学时)


值函数的参数化表示

值函数的估计过程

值函数的优化方法,随机梯度下降和半梯度下降法

值函数的线性逼近

神经网络讲解

DQN 方法介绍

DQN 变种 Double DQN, Prioritized Replay, Dueling Network


理论教学时间:8:30—9:30

手把手编程实践课: 9:30—10:30;

教学内容:tensorflow 使用方法,利用 tensorflow 实现DQN。


第八章 策略梯度方法(2 学时)


策略梯度方法介绍

似然率策略梯度推导及重要性采样视角推导

似然率策略梯度的直观理解

常见的策略表示

常见的减小方差的方法:引入基函数法,修改估计值函数法


理论教学时间:10:30—11:30

手把手编程实践课:11:30—12:30

教学内容:利用 gym 和 tensorflow 实现小车倒立摆系统,乒乓球游戏


第九章 TRPO 方法介绍及推导(2 学时)


替代回报函数的构建

单调的改进策略

TRPO 实用算法介绍

共轭梯度法搜索可行方向

PPO 方法

基于 python 的 TRPO 方法实现


理论教学时间:14:00—15:00

手把手编程实践课:15:00—16:00

教学内容:trpo 算法和 ppo 算法实现


第十章 AC 方法(2 学时)


随机策略与确定性策略比较

随机策略 AC 的方

确定性策略梯度方法

DDPG 方法及实现

A3C 方法讲解

基于 python 的 DDPG 方法实现


理论教学时间: 16:00—17:00

手把手编程实践课:17:00-18:00

教学内容:AC 方法及 DDPG 和 A3C 方法实现


报名请联系:

qq(315937536),或微信(lqfarmerlq)

讲师介绍

    郭宪,南开大学计算机与控制工程学院博士后。2009 年毕业于华中科技大学机械设计制造及自动化专业,同年保送到中国科学院沈阳自动化研究所进行硕博连读,主攻机器人动力学建模与控制,于 2016 年 1 月获得工学博士学位,期间在国内外知名杂志和会议发表论文数 10 篇。2016 年以来,郭博士主攻方向为机器人智能感知和智能决策,目前主持两项国家级课题,内容涉及深度学习,深度强化学习等智能算法在机器人领域中的应用。郭博士于 2017 年 3 月开始在知乎专栏强化学习知识大讲堂,其深入浅出的讲解收到广大知友一致好评。即将出版《强化学习深入浅出完全教程》一书。

购买须知

1.上课时间:2017年9月16日—9月17日

2.票价:

早鸟票2999,学生早鸟票1999

普通票3199,学生票2199


3.上课地址:北京市海淀区中关村

4.所有学员上课时需自带电脑

5.购买学生票的学员,将在现场查验身份证和学生证

6.报名课程一年内可以免费重学一次

7.报名上限为40人,小班制教学

8.票价不包含交通住宿费,主办方可以协助有住宿需求的学员拼房。

9.购票后如有其它原因无法参加本次课程,可凭票参加下期课程。

往期精彩内容推荐:

模型汇总22 机器学习相关基础数学理论、概念、模型思维导图分享

《纯干货16》调整学习速率以优化神经网络训练

深度学习在自然语言处理中的应用综述

《纯干货-6》Stanford University 2017年最新《Tensorflow与深度学习实战》视频课程分享

<模型汇总-10> Variational AutoEncoder_变分自动编码器原理解析

模型汇总-12  深度学习中的表示学习_Representation Learning

扫描下方二维码可以订阅哦!

DeepLearning_NLP

深度学习与NLP

       商务合作请联系微信号:lqfarmerlq

登录查看更多
17

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【圣经书】《强化学习导论(2nd)》电子书与代码,548页pdf
专知会员服务
201+阅读 · 2020年5月22日
【干货书】R语言书: 编程和统计的第一课程,
专知会员服务
111+阅读 · 2020年5月9日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
172+阅读 · 2020年2月8日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
【斯坦福新课】CS234:强化学习,附课程PPT下载
专知会员服务
118+阅读 · 2020年1月15日
【书籍】深度学习框架:PyTorch入门与实践(附代码)
专知会员服务
163+阅读 · 2019年10月28日
专知会员服务
206+阅读 · 2019年8月30日
深度强化学习入门,这一篇就够了!
机器学习算法与Python学习
27+阅读 · 2018年8月17日
OpenAI强化学习实战
炼数成金订阅号
9+阅读 · 2018年5月14日
公开课 | 强化学习之基础入门
AI100
6+阅读 · 2018年1月7日
如何开启深度强化学习的大门?
StuQ
8+阅读 · 2017年9月12日
深度强化学习小白入门攻略篇
StuQ
5+阅读 · 2017年9月7日
Arxiv
3+阅读 · 2018年10月8日
Relational Deep Reinforcement Learning
Arxiv
10+阅读 · 2018年6月28日
Arxiv
3+阅读 · 2018年2月12日
VIP会员
相关VIP内容
【圣经书】《强化学习导论(2nd)》电子书与代码,548页pdf
专知会员服务
201+阅读 · 2020年5月22日
【干货书】R语言书: 编程和统计的第一课程,
专知会员服务
111+阅读 · 2020年5月9日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
172+阅读 · 2020年2月8日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
【斯坦福新课】CS234:强化学习,附课程PPT下载
专知会员服务
118+阅读 · 2020年1月15日
【书籍】深度学习框架:PyTorch入门与实践(附代码)
专知会员服务
163+阅读 · 2019年10月28日
专知会员服务
206+阅读 · 2019年8月30日
相关资讯
深度强化学习入门,这一篇就够了!
机器学习算法与Python学习
27+阅读 · 2018年8月17日
OpenAI强化学习实战
炼数成金订阅号
9+阅读 · 2018年5月14日
公开课 | 强化学习之基础入门
AI100
6+阅读 · 2018年1月7日
如何开启深度强化学习的大门?
StuQ
8+阅读 · 2017年9月12日
深度强化学习小白入门攻略篇
StuQ
5+阅读 · 2017年9月7日
Top
微信扫码咨询专知VIP会员