春节充电系列：李宏毅2017机器学习课程学习笔记31之深度强化学习(deep reinforcement learning)

2018 年 3 月 21 日 专知专知内容组

【导读】我们在上一节的内容中已经为大家介绍了台大李宏毅老师的机器学习课程的ensemble。这一节将主要针对讨论deep reinforcement learning进行讨论。本文内容主要针对机器学习中deep reinforcement learning的增强学习的概念、Policy-based Approach以及公式推导进行详细介绍，话不多说，让我们一起学习这些内容吧。

春节充电系列：李宏毅2017机器学习课程学习笔记25之结构化学习-序列标注 Sequence Labeling（part 1）

春节充电系列：李宏毅2017机器学习课程学习笔记26之结构化学习-序列标注 Sequence Labeling（part 2）

春节充电系列：李宏毅2017机器学习课程学习笔记27之循环神经网络 Recurrent Neural Network

春节充电系列：李宏毅2017机器学习课程学习笔记28之循环神经网络 Recurrent Neural Network Part2

春节充电系列：李宏毅2017机器学习课程学习笔记29之循环神经网络 Recurrent Neural Network Part3

春节充电系列：李宏毅2017机器学习课程学习笔记30之集成学习 (Ensemble Learning)

课件网址：

http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17_2.html

http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17.html

视频网址：

https://www.bilibili.com/video/av15889450/index_1.html

李宏毅机器学习笔记31 深度强化学习(deep reinforcement learning)

▌1．增强学习的概念

增强学习有两个重要部分，一个是agent，一个是environment。

Agent从环境中观察环境的状态

然后agent根据看到的状态采取行动，进而改变

然后agent会得到一个reward，agent每次采取的行动都尽量使得reward最大

比如对于下围棋来说，赢了reward是1，输了reward是0

简单来说，监督学习机器是从老师那里学习，而增强学习则是从经验那里学习的

增强学习也可以用来训练chat-bot

当然还有更多的应用

在打电脑游戏中可以用到增强学习

增强学习困难在于reward可能不是立马就会得到，比如在下围棋时可能需要短暂的牺牲以便在以后获得更大的优势

增强学习主要分为两大类，一个是policy-based，另一个是value-based

▌2. Policy-based Approach

今天主要讲述policy-based approach

Action是要根据目前看到的状态采取行动

当actor是neural network是，增强学习就变成深度增强学习了

根据目前的状态NN输出要采取行动的概率

Reward我们最后取的是total reward

我们需要取total reward的期望，因为即使在不同的实验中我们采取同样的actor，我们得到的reward依然是不一样的

▌3.公式推导

于是增强学习的问题可以归结如下

继续化简

对于P(τ|θ)我们可以得到

忽视与θ无关的项

带入式子中我们可以得到

当然这还不够，现实和梦想总有差距的，而且差距很大。

我们需要增加一个baseline，当大于baseline的值几率增加，小于baseline的值几率减小。可以很好的减轻以上情况

到此为止，课程全部结束了，我们总共讲述了以上部分，当然这些内容并不是机器学习的全部内容，仅仅是机器学习的简单入门，在学习过程中也验证了数学的重要性。年轻人不要心浮气躁，地基打牢固了才能建成摩天大楼。

请关注专知公众号（扫一扫最下面专知二维码，或者点击上方蓝色专知），

后台回复“LHY2017” 就可以获取 2017年李宏毅中文机器学习课程下载链接~

-END-

专 · 知

人工智能领域主题知识资料查看获取：【专知荟萃】人工智能领域26个主题知识资料全集（入门/进阶/论文/综述/视频/专家等）

同时欢迎各位用户进行专知投稿，详情请点击：

【诚邀】专知诚挚邀请各位专业者加入AI创作者计划！了解使用专知！

请PC登录www.zhuanzhi.ai或者点击阅读原文，注册登录专知，获取更多AI知识资料！

请扫一扫如下二维码关注我们的公众号，获取人工智能的专业知识！

请加专知小助手微信（Rancho_Fang），加入专知主题人工智能群交流！加入专知主题群（请备注主题类型：AI、NLP、CV、 KG等）交流~

点击“阅读原文”，使用专知！

登录查看更多

相关内容

李宏毅

关注 18

李宏毅（Hung-yi Lee）目前任台湾大学电机工程学系和电机资讯学院的助理教授，他曾于 2012 年获得台湾大学博士学位，并于 2013 年赴麻省理工学院（MIT）计算机科学和人工智能实验室（CSAIL）做访问学者。他的研究方向主要是机器学习（深度学习）和语音识别。

【牛津大学&DeepMind】自监督学习教程，141页ppt

专知会员服务

181+阅读 · 2020年5月29日

【Texas 大学】强化学习领域的课程学习:一个框架和综述

专知会员服务

73+阅读 · 2020年3月22日

【Manning2020新书】深度强化学习实战，351页pdf，Deep Reinforcement Learning

专知会员服务

289+阅读 · 2020年3月10日

李宏毅《机器学习2020版》正式开放上线：带你进行ML打怪升级！

专知会员服务

111+阅读 · 2020年3月7日

深度学习金融应用综述论文，52页pdf，Deep Learning for Financial Applications

专知会员服务

83+阅读 · 2020年2月18日

【MIT深度学习课程】深度序列建模，Deep Sequence Modeling

专知会员服务

78+阅读 · 2020年2月3日

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

【金融机器学习课程资料】Financial Machine Learning

专知会员服务

118+阅读 · 2019年12月24日

【强化学习】深度强化学习初学者指南

专知会员服务

182+阅读 · 2019年12月14日

【电子书推荐】强化学习（Reinforcement Learning）法兰克福大学 | Cornelius Weber

专知会员服务

44+阅读 · 2019年11月19日

春节充电系列：李宏毅2017机器学习课程学习笔记29之循环神经网络 Recurrent Neural Network Part3

专知

3+阅读 · 2018年3月16日

春节充电系列：李宏毅2017机器学习课程学习笔记28之循环神经网络 Recurrent Neural Network Part2

专知

3+阅读 · 2018年3月15日

春节充电系列：李宏毅2017机器学习课程学习笔记27之循环神经网络 Recurrent Neural Network

专知

4+阅读 · 2018年3月14日

春节充电系列：李宏毅2017机器学习课程学习笔记19之迁移学习（Transfer Learning）

专知

9+阅读 · 2018年3月5日

春节充电系列：李宏毅2017机器学习课程学习笔记16之无监督学习：自编码器（autoencoder）

专知

6+阅读 · 2018年3月2日

春节充电系列：李宏毅2017机器学习笔记14之无监督学习：词嵌入表示（Word Embedding）

专知

5+阅读 · 2018年2月28日

春节充电系列：李宏毅2017机器学习课程学习笔记12之半监督学习（Semi-supervised Learning）

专知

6+阅读 · 2018年2月26日

春节充电系列：李宏毅2017机器学习课程学习笔记11之Why Deep Learning?

专知

3+阅读 · 2018年2月25日

春节充电系列：李宏毅2017机器学习课程学习笔记06之深度学习入门

专知

9+阅读 · 2018年2月19日

春节充电系列：李宏毅2017机器学习课程学习笔记01之简介

专知

4+阅读 · 2018年2月12日

Multi-class Classification without Multi-class Labels

Arxiv

4+阅读 · 2019年1月2日

Logically-Constrained Reinforcement Learning

Arxiv

3+阅读 · 2018年12月6日

Semi-supervised Deep Reinforcement Learning in Support of IoT and Smart City Services

Arxiv

3+阅读 · 2018年10月9日

Symbolic Priors for RNN-based Semantic Parsing

Arxiv

3+阅读 · 2018年9月20日

Generalizing Across Multi-Objective Reward Functions in Deep Reinforcement Learning

Arxiv

5+阅读 · 2018年9月17日

Auto Deep Compression by Reinforcement Learning Based Actor-Critic Structure

Arxiv

3+阅读 · 2018年7月8日

Relational Deep Reinforcement Learning

Arxiv

10+阅读 · 2018年6月28日

GraphRNN: A Deep Generative Model for Graphs

Arxiv

6+阅读 · 2018年2月24日

A Deep Reinforcement Learning Chatbot (Short Version)

Arxiv

13+阅读 · 2018年1月20日

Experience-driven Networking: A Deep Reinforcement Learning based Approach

Arxiv

9+阅读 · 2018年1月17日

VIP会员