报告主题: Reinforcement Learning

报告简介: 强化学习是智能体(Agent)以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏,强化学习不同于连接主义学习中的监督学习,主要表现在强化信号上,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号),而不是告诉强化学习系统RLS(reinforcement learning system)如何去产生正确的动作。由于外部环境提供的信息很少,RLS必须靠自身的经历进行学习。通过这种方式,RLS在行动-评价的环境中获得知识,改进行动方案以适应环境。其基本原理是:如果Agent的某个行为策略导致环境正的奖赏(强化信号),那么Agent以后产生这个行为策略的趋势便会加强。Agent的目标是在每个离散状态发现最优策略以使期望的折扣奖赏和最大。Nando教授将从强化学习的基础入手,并结合强化学习的应用展开介绍。

嘉宾介绍: Nando曾在加州大学伯克利分校(UC Berkeley)从事人工智能工作,并于2001年成为加拿大不列颠哥伦比亚大学的教授,随后于2013年成为英国牛津大学的教授。2017年,他全职加入DeepMind,担任首席科学家,以帮助他们解决智力问题,使子孙后代可以过上更好的生活。 Nando还是加拿大高级研究所的资深研究员,并曾获得多个学术奖项。

成为VIP会员查看完整内容
0
52

相关内容

“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。” ——中文维基百科

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

借助现代的高容量模型,大数据已经推动了机器学习的许多领域的革命,但标准方法——从标签中进行监督学习,或从奖励功能中进行强化学习——已经成为瓶颈。即使数据非常丰富,获得明确指定模型必须做什么的标签或奖励也常常是棘手的。收集简单的类别标签进行分类对于数百万计的示例来说是不可能的,结构化输出(场景解释、交互、演示)要糟糕得多,尤其是当数据分布是非平稳的时候。

自监督学习是一个很有前途的替代方法,其中开发的代理任务允许模型和代理在没有明确监督的情况下学习,这有助于对感兴趣的任务的下游性能。自监督学习的主要好处之一是提高数据效率:用较少的标记数据或较少的环境步骤(在强化学习/机器人技术中)实现可比较或更好的性能。

自监督学习(self-supervised learning, SSL)领域正在迅速发展,这些方法的性能逐渐接近完全监督方法。

成为VIP会员查看完整内容
0
119

强化学习(RL)研究的是当环境(即动力和回报)最初未知,但可以通过直接交互学习时的顺序决策问题。RL算法最近在许多问题上取得了令人印象深刻的成果,包括游戏和机器人。 然而,大多数最新的RL算法需要大量的数据来学习一个令人满意的策略,并且不能用于样本昂贵和/或无法进行长时间模拟的领域(例如,人机交互)。朝着更具样本效率的算法迈进的一个基本步骤是,设计适当平衡环境探索、收集有用信息的方法,以及利用所学策略收集尽可能多的回报的方法。

本教程的目的是让您认识到探索性开发困境对于提高现代RL算法的样本效率的重要性。本教程将向观众提供主要算法原理(特别是,面对不确定性和后验抽样时的乐观主义)、精确情况下的理论保证(即表格RL)及其在更复杂环境中的应用,包括参数化MDP、线性二次控制,以及它们与深度学习架构的集成。本教程应提供足够的理论和算法背景,以使AI和RL的研究人员在现有的RL算法中集成探索原理,并设计新颖的样本高效的RL方法,能够处理复杂的应用,例如人机交互(例如,会话代理),医学应用(例如,药物优化)和广告(例如,营销中的终身价值优化)。在整个教程中,我们将讨论开放的问题和未来可能的研究方向。

成为VIP会员查看完整内容
0
78

讲座题目

深强化学习及其在交通运输中的应用:Deep Reinforcement Learning with Applications in Transportation

讲座简介

交通领域,特别是移动共享领域,有许多传统上具有挑战性的动态决策问题,这些问题有很长的研究文献,很容易从人工智能(AI)中受益匪浅。一些核心例子包括在线乘车命令调度,它将可用的驾驶员与在共享平台上请求乘客的行程实时匹配;路线规划,它规划行程的起点和终点之间的最佳路线;交通信号控制,它动态和自适应地调整实现低延迟的区域。所有这些问题都有一个共同的特点,即当我们关注某一特定时间范围内的一些累积目标时,需要做出一系列的决定。强化学习(RL)是一种机器学习范式,它通过与环境的交互和获取反馈信号,训练agent学会在环境中采取最佳行动(以获得的总累积回报衡量)。因此,它是一类求解序列决策问题的优化方法。

讲座嘉宾

Jen-Tzung Chien在台湾新竹国立清华大学取得电机工程博士学位。现任职于台湾新竹国立交通大学电子及电脑工程学系及电脑科学系讲座教授。2010年,他担任IBM沃森研究中心的客座教授。他的研究兴趣包括机器学习、深度学习、自然语言处理和计算机视觉。在2011年获得了IEEE自动语音识别和理解研讨会的最佳论文奖,并在2018年获得了AAPM Farrington Daniels奖。2015年,剑桥大学出版社出版《贝叶斯语音与语言处理》;2018年,学术出版社出版《源分离与机器学习》。他目前是IEEE信号处理技术委员会机器学习的当选成员。

成为VIP会员查看完整内容
0
37

题目: Reinforcement Learning:Theory and Algorithms

简介:

强化学习是近几年研究的热点,特别是伴随DeepMind AlphaGo的出现名声大噪。强化学习(RL)是一种机器学习范式,在这种范式中,agent从经验中学习完成顺序决策任务,RL在机器人、控制、对话系统、医疗等领域有广泛的应用。《强化学习:理论与算法》这本书讲述了强化学习最新进展,包括MDP、样本复杂度、策略探索、PG、值函数等关键议题,是了解强化学习的材料。

章节:

  • 第一章:马尔科夫决策过程MDP 预介绍
  • 第二章:生成模型的样本复杂度
  • 第三章:强化学习的策略探索
  • 第四章:策略梯度方法
  • 第五章:值函数近似
  • 第六章:RL的战略探索和丰富的观测资料
  • 第七章:行为克隆和学徒学习

作者简介:

Alekh Agarwal目前是微软人工智能研究中心的研究员,领导强化学习研究小组。之前,在加州大学伯克利分校获得计算机科学博士学位后,与彼得·巴特利特(Peter Bartlett)和马丁·温赖特(Martin Wainwright)一起在纽约微软研究院(Microsoft Research)度过了六年美好的时光。

姜楠,UIUC助理教授,机器学习研究员。核心研究领域是强化学习(RL),关注于RL的样本效率,并利用统计学习理论中的思想来分析和开发RL算法。

沙姆·卡卡德(Sham M. Kakade)是华盛顿研究基金会(Washington Research Foundation)数据科学主席,同时在华盛顿大学(University of Washington)艾伦学院(Allen School)和统计学系任职。他致力于机器学习的理论基础,专注于设计(和实现)统计和计算效率的算法。

成为VIP会员查看完整内容
rl_monograph_AJK.pdf
0
77

主题: Safe and Fair Machine Learning

简介:

在这个演讲将讨论一些我们的未来的工作在一个新的框架设计的机器学习算法,内容包括:1)使得算法的用户更容易定义他们认为是不受欢迎的行为(例如,他们认为是不公平的,不安全,或者成本);2)提供了一个高信任度保证它不会产生一个解决方案,展示了用户定义的不受欢迎的行为。

作者简介:

Philip Thomas是马萨诸塞大学安姆斯特分校信息与计算机科学学院助理教授,自主学习实验室联合主任。之前是卡内基·梅隆大学(CMU)的博士后,2015年,在马萨诸塞州立大学阿默斯特分校(UMass Amherst)获得了计算机科学博士学位。主要研究如何确保人工智能(AI)系统的安全性,重点是确保机器学习(ML)算法的安全性和公平性以及创建安全和实用的强化学习(RL)算法。

成为VIP会员查看完整内容
0
7

主题: Deep Reinforcement Learning with Applications in Transportation

简介: 交通运输,特别是移动乘车共享领域,存在许多传统上具有挑战性的动态决策问题,这些问题涉及研究文献,而且很容易从人工智能(AI)中受益匪浅。一些核心示例包括在线乘车指令调度,该系统将可用的驾驶员与乘车共享平台上的出行请求乘客实时匹配;路线规划,用于规划行程起点和终点之间的最佳路线;交通信号控制,可动态自适应地调整区域内的交通信号以实现低延迟。所有这些问题都有一个共同的特征,即在我们关注某个范围内的一些累积目标时,要做出一系列决定。强化学习(RL)是一种机器学习范例,可训练代理通过与之交互并获取反馈信号来学习在环境中采取最佳行动(以所获得的总累积奖励衡量)。因此,它是用于解决顺序决策问题的一类优化方法。得益于深度学习研究和计算能力的飞速发展,深度神经网络和RL的集成为解决复杂的大规模学习问题在RL中产生了爆炸性的进展,近年来引起了巨大的兴趣。深度学习和RL的结合甚至被认为是通往真正AI的道路。它具有巨大的潜力,以前所未有的方式解决运输中的一些难题。

目录简介:

  • Part I: 介绍:机器学习与强化学习
  • Part II: 强化学习基础
  • Part III:基于policy的强化学习
  • Part IV:强化学习框架
成为VIP会员查看完整内容
0
36
小贴士
相关VIP内容
专知会员服务
119+阅读 · 2020年5月29日
专知会员服务
99+阅读 · 2020年2月1日
相关论文
Risk-Aware Active Inverse Reinforcement Learning
Daniel S. Brown,Yuchen Cui,Scott Niekum
4+阅读 · 2019年1月8日
Omni-directional Feature Learning for Person Re-identification
Di Wu,Hong-Wei Yang,De-Shuang Huang
3+阅读 · 2018年12月13日
Brett Daley,Christopher Amato
4+阅读 · 2018年10月23日
Multi-task Deep Reinforcement Learning with PopArt
Matteo Hessel,Hubert Soyer,Lasse Espeholt,Wojciech Czarnecki,Simon Schmitt,Hado van Hasselt
3+阅读 · 2018年9月12日
Learn What Not to Learn: Action Elimination with Deep Reinforcement Learning
Tom Zahavy,Matan Haroush,Nadav Merlis,Daniel J. Mankowitz,Shie Mannor
4+阅读 · 2018年9月6日
Andreas Kamilaris,Francesc X. Prenafeta-Boldu
9+阅读 · 2018年7月31日
Relational Deep Reinforcement Learning
Vinicius Zambaldi,David Raposo,Adam Santoro,Victor Bapst,Yujia Li,Igor Babuschkin,Karl Tuyls,David Reichert,Timothy Lillicrap,Edward Lockhart,Murray Shanahan,Victoria Langston,Razvan Pascanu,Matthew Botvinick,Oriol Vinyals,Peter Battaglia
5+阅读 · 2018年6月28日
Benjamin Recht
5+阅读 · 2018年6月25日
Seyed Sajad Mousavi,Michael Schukat,Enda Howley
12+阅读 · 2018年6月23日
Abhishek Gupta,Benjamin Eysenbach,Chelsea Finn,Sergey Levine
6+阅读 · 2018年6月12日
Top