【回顾】北交大博士：强化学习与策略评估 - 专知

会员服务 ·

0

【回顾】北交大博士：强化学习与策略评估

2017 年 11 月 11 日 AI研习社 不灵叔

活动回顾

分享主题：Reinforcement learning and policy evaluation（强化学习与策略评估）

分享人：汪跃，北京交通大学数学系三年级博士生，专业为概率论与数理统计，导师是马志明院士。他的研究兴趣在于机器学习、优化算法、强化学习的算法设计和算法理论分析。在此之前，他于2015年在北京交通大学理学院院获得学士学位。他现在微软亚洲研究院机器学习组实习。

强化学习(Reinforcement learning)在近几年收到越来越多的关注，对于强化学习的理论探讨也一直是研究热点。这次分享，我们将一起探讨强化学习的理论框架。在此基础上，策略评估(policy evaluation)是强化学习中最基础也是最重要的一个组成部分，其收敛性质的分析对于理解和改进这一类算法非常重要。但是如果只停留在一些非常理想化的假设下，得到的结果往往难以令人信服。在这次要分享的一个工作中，我们将给出一类策略评估算法在一些更贴近实际的假定下（RL天然的数据不独立同分布性，步长多种设置方式等）的收敛速率分析结果，从而更加确切的回答了关于这一类算法收敛性质的疑问，并且提供了解决类似问题的一个可用的理论工具。

11月8日（周三）晚20:00 ，AI 研习社微信群

▷ 观看完整回顾大概需要 65 分钟

新人福利

关注 AI 研习社（okweiwu），回复 1 领取

【超过 1000G 神经网络 / AI / 大数据，教程，论文】

公开课精彩往期回顾

复旦Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017）

极限元刘斌：深度学习在语音生成问题上的典型应用

搜狗文仕学：基于深度学习的语音分离

Video ++孙兆民：视频内容识别行业分析

悉尼科大王超岳：基于生成对抗网络的图像编辑方法

达观数据张健：文本分类方法和应用案例

清华Ph.D王书浩：基于深度学习的电商交易欺诈检测系统

Twitter工程师王东：详解YOLO2与YOLO9000目标检测系统

Kaggle比赛金牌团队：图像比赛的通用套路有哪些？

宜远智能刘凯：显著降低模型训练成本的主动增量学习

更多课程欢迎点击链接观看

▼▼▼

登录查看更多

4

相关内容

策略评估

【清华大学】低资源语言:回顾综述和未来的挑战，14页pdf

【清华大学】低资源语言:回顾综述和未来的挑战，14页pdf

专知会员服务

38+阅读 · 2020年6月16日

【斯坦福大学博士论文】机器学习中的凸优化问题,108页pdf

【斯坦福大学博士论文】机器学习中的凸优化问题,108页pdf

专知会员服务

162+阅读 · 2020年6月14日

回顾机器学习公平的数学框架，Review of Mathematical frameworks for Fairness in Machine Learning

回顾机器学习公平的数学框架，Review of Mathematical frameworks for Fairness in Machine Learning

专知会员服务

38+阅读 · 2020年5月30日

最新《经济学中的强化学习》2020大综述，42页pdf128篇文献

最新《经济学中的强化学习》2020大综述，42页pdf128篇文献

专知会员服务

121+阅读 · 2020年4月6日

【AAAI2020教程】强化学习中的Exploration-Exploitation in Reinforcement Learning

专知会员服务

101+阅读 · 2020年2月8日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

无监督深度学习——这《元监督视觉学习》132页伯克利博士论文带你回顾无监督视觉应用最新发展脉络

无监督深度学习——这《元监督视觉学习》132页伯克利博士论文带你回顾无监督视觉应用最新发展脉络

专知会员服务

30+阅读 · 2019年10月26日

【伯克利博士论文】统计与优化—统计学习算法的计算保障（附143页PDF全文下载）

【伯克利博士论文】统计与优化—统计学习算法的计算保障（附143页PDF全文下载）

专知会员服务

34+阅读 · 2019年10月26日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

【ALT 2019 Tutorials】强化学习的探索性开发（Exploration-Exploitation in Reinforcement Learning）

【ALT 2019 Tutorials】强化学习的探索性开发（Exploration-Exploitation in Reinforcement Learning）

专知会员服务

34+阅读 · 2019年3月21日

深度学习系列之三：循环神经网络 | 公开课

深度学习系列之三：循环神经网络 | 公开课

AI研习社

6+阅读 · 2017年12月2日

【回顾】深度学习系列之二：卷积神经网络

【回顾】深度学习系列之二：卷积神经网络

AI研习社

20+阅读 · 2017年12月1日

【回顾】深度学习之星：GAN的原理

【回顾】深度学习之星：GAN的原理

AI研习社

5+阅读 · 2017年11月27日

深度学习之星：GAN的原理 | 公开课

深度学习之星：GAN的原理 | 公开课

AI研习社

7+阅读 · 2017年11月22日

【回顾】深度学习在语音增强方向上的前沿研究

【回顾】深度学习在语音增强方向上的前沿研究

AI研习社

7+阅读 · 2017年11月20日

【回顾】AI小白的机器学习入门之路

【回顾】AI小白的机器学习入门之路

AI研习社

5+阅读 · 2017年11月16日

【回顾】Deep Learning读书分享：卷积网络

【回顾】Deep Learning读书分享：卷积网络

AI研习社

4+阅读 · 2017年11月15日

深度学习在语音增强方向上的前沿研究 | GAIR大讲堂

深度学习在语音增强方向上的前沿研究 | GAIR大讲堂

AI研习社

6+阅读 · 2017年11月14日

【回顾】机器学习中的数学基础

【回顾】机器学习中的数学基础

AI研习社

6+阅读 · 2017年11月7日

【回顾】医学影像计算与分析

【回顾】医学影像计算与分析

AI研习社

5+阅读 · 2017年11月5日

A Survey of Reinforcement Learning Techniques: Strategies, Recent Development, and Future Directions

A Survey of Reinforcement Learning Techniques: Strategies, Recent Development, and Future Directions

Arxiv

80+阅读 · 2020年1月19日

Optimization for deep learning: theory and algorithms

Optimization for deep learning: theory and algorithms

Arxiv

106+阅读 · 2019年12月19日

Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning

Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning

Arxiv

34+阅读 · 2019年10月24日

Object Detection in 20 Years: A Survey

Object Detection in 20 Years: A Survey

Arxiv

48+阅读 · 2019年5月13日

Learning Heuristics over Large Graphs via Deep Reinforcement Learning

Arxiv

12+阅读 · 2019年3月8日

How do you correct run-on sentences it's not as easy as it seems

Arxiv

4+阅读 · 2018年9月21日

ViZDoom Competitions: Playing Doom from Pixels

ViZDoom Competitions: Playing Doom from Pixels

Arxiv

5+阅读 · 2018年9月10日

Human-In-The-Loop Person Re-Identification

Arxiv

4+阅读 · 2018年5月4日

The Best of Both Worlds: Combining Recent Advances in Neural Machine Translation

Arxiv

4+阅读 · 2018年4月26日

Safety-aware Adaptive Reinforcement Learning with Applications to Brushbot Navigation

Arxiv

4+阅读 · 2018年1月29日

VIP会员

相关主题

北京交通大学

概率论与数理统计

相关VIP内容

【清华大学】低资源语言:回顾综述和未来的挑战，14页pdf

【清华大学】低资源语言:回顾综述和未来的挑战，14页pdf

专知会员服务

38+阅读 · 2020年6月16日

【斯坦福大学博士论文】机器学习中的凸优化问题,108页pdf

【斯坦福大学博士论文】机器学习中的凸优化问题,108页pdf

专知会员服务

162+阅读 · 2020年6月14日

回顾机器学习公平的数学框架，Review of Mathematical frameworks for Fairness in Machine Learning

回顾机器学习公平的数学框架，Review of Mathematical frameworks for Fairness in Machine Learning

专知会员服务

38+阅读 · 2020年5月30日

最新《经济学中的强化学习》2020大综述，42页pdf128篇文献

最新《经济学中的强化学习》2020大综述，42页pdf128篇文献

专知会员服务

121+阅读 · 2020年4月6日

【AAAI2020教程】强化学习中的Exploration-Exploitation in Reinforcement Learning

专知会员服务

101+阅读 · 2020年2月8日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

无监督深度学习——这《元监督视觉学习》132页伯克利博士论文带你回顾无监督视觉应用最新发展脉络

无监督深度学习——这《元监督视觉学习》132页伯克利博士论文带你回顾无监督视觉应用最新发展脉络

专知会员服务

30+阅读 · 2019年10月26日

【伯克利博士论文】统计与优化—统计学习算法的计算保障（附143页PDF全文下载）

【伯克利博士论文】统计与优化—统计学习算法的计算保障（附143页PDF全文下载）

专知会员服务

34+阅读 · 2019年10月26日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

【ALT 2019 Tutorials】强化学习的探索性开发（Exploration-Exploitation in Reinforcement Learning）

【ALT 2019 Tutorials】强化学习的探索性开发（Exploration-Exploitation in Reinforcement Learning）

专知会员服务

34+阅读 · 2019年3月21日

热门VIP内容

开通专知VIP会员享更多权益服务

隐身自主无人水下航行器技术如何变革水下作战并重塑海军竞争

《俄乌战争中的无人系统：新的战争方式与新兴趋势——来自前线的印象》报告

《海上自主水面船舶远程操作中心：安全可持续运行的多维度分析》

相关资讯

深度学习系列之三：循环神经网络 | 公开课

深度学习系列之三：循环神经网络 | 公开课

AI研习社

6+阅读 · 2017年12月2日

【回顾】深度学习系列之二：卷积神经网络

【回顾】深度学习系列之二：卷积神经网络

AI研习社

20+阅读 · 2017年12月1日

【回顾】深度学习之星：GAN的原理

【回顾】深度学习之星：GAN的原理

AI研习社

5+阅读 · 2017年11月27日

深度学习之星：GAN的原理 | 公开课

深度学习之星：GAN的原理 | 公开课

AI研习社

7+阅读 · 2017年11月22日

【回顾】深度学习在语音增强方向上的前沿研究

【回顾】深度学习在语音增强方向上的前沿研究

AI研习社

7+阅读 · 2017年11月20日

【回顾】AI小白的机器学习入门之路

【回顾】AI小白的机器学习入门之路

AI研习社

5+阅读 · 2017年11月16日

【回顾】Deep Learning读书分享：卷积网络

【回顾】Deep Learning读书分享：卷积网络

AI研习社

4+阅读 · 2017年11月15日

深度学习在语音增强方向上的前沿研究 | GAIR大讲堂

深度学习在语音增强方向上的前沿研究 | GAIR大讲堂

AI研习社

6+阅读 · 2017年11月14日

【回顾】机器学习中的数学基础

【回顾】机器学习中的数学基础

AI研习社

6+阅读 · 2017年11月7日

【回顾】医学影像计算与分析

【回顾】医学影像计算与分析

AI研习社

5+阅读 · 2017年11月5日

相关论文

A Survey of Reinforcement Learning Techniques: Strategies, Recent Development, and Future Directions

A Survey of Reinforcement Learning Techniques: Strategies, Recent Development, and Future Directions

Arxiv

80+阅读 · 2020年1月19日

Optimization for deep learning: theory and algorithms

Optimization for deep learning: theory and algorithms

Arxiv

106+阅读 · 2019年12月19日

Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning

Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning

Arxiv

34+阅读 · 2019年10月24日

Object Detection in 20 Years: A Survey

Object Detection in 20 Years: A Survey

Arxiv

48+阅读 · 2019年5月13日

Learning Heuristics over Large Graphs via Deep Reinforcement Learning

Arxiv

12+阅读 · 2019年3月8日

How do you correct run-on sentences it's not as easy as it seems

Arxiv

4+阅读 · 2018年9月21日

ViZDoom Competitions: Playing Doom from Pixels

ViZDoom Competitions: Playing Doom from Pixels

Arxiv

5+阅读 · 2018年9月10日

Human-In-The-Loop Person Re-Identification

Arxiv

4+阅读 · 2018年5月4日

The Best of Both Worlds: Combining Recent Advances in Neural Machine Translation

Arxiv

4+阅读 · 2018年4月26日

Safety-aware Adaptive Reinforcement Learning with Applications to Brushbot Navigation

Arxiv

4+阅读 · 2018年1月29日

大家都在搜

大型语言模型

蓝牙安全攻防

模型压缩 | 知识蒸馏经典解读

微信扫码咨询专知VIP会员