分享主题:Reinforcement learning and policy evaluation(强化学习与策略评估)
分享人:汪跃,北京交通大学数学系三年级博士生,专业为概率论与数理统计,导师是马志明院士。 他的研究兴趣在于机器学习、优化算法、强化学习的算法设计和算法理论分析。 在此之前,他于2015年在北京交通大学理学院院获得学士学位。 他现在微软亚洲研究院机器学习组实习。
强化学习(Reinforcement learning)在近几年收到越来越多的关注,对于强化学习的理论探讨也一直是研究热点。这次分享,我们将一起探讨强化学习的理论框架。在此基础上,策略评估(policy evaluation)是强化学习中最基础也是最重要的一个组成部分,其收敛性质的分析对于理解和改进这一类算法非常重要。但是如果只停留在一些非常理想化的假设下,得到的结果往往难以令人信服。在这次要分享的一个工作中,我们将给出一类策略评估算法在一些更贴近实际的假定下(RL天然的数据不独立同分布性,步长多种设置方式等 )的收敛速率分析结果,从而更加确切的回答了关于这一类算法收敛性质的疑问,并且提供了解决类似问题的一个可用的理论工具。
11月8日(周三)晚20:00 ,AI 研习社微信群
▷ 观看完整回顾大概需要 65 分钟
新人福利
关注 AI 研习社(okweiwu),回复 1 领取
【超过 1000G 神经网络 / AI / 大数据,教程,论文】
复旦Ph.D沈志强:用于目标检测的DSOD模型(ICCV 2017)
更多课程欢迎点击链接观看
▼▼▼