独家专访 || 强化学习教父Richard Sutton:实现强人工智能算法的难与易

2020 年 3 月 26 日 深度强化学习实验室

深度强化学习实验室报道

来源:机器之心  采访:ChainnZ、Yuxi

作者:Rui Chen、ChainnZ等   整理:DeepRL


强化学习是现在人工智能领域里面最活跃的研究领域之一,它是一种用于学习的计算方法,其中会有一个代理在与复杂的不确定环境交互时试图最大化其所收到的奖励。Richard S. Sutton 教授被认为是现代计算的强化学习创立者之一。他为该领域做出了许多重大贡献,包括:时间差分学习、策略梯度方法、Dyna 架构。

本次采访是机器之心对老爷子的一次专访,具体的对话内容如下:


采访正文内容


1. || 机器之心强化学习是如何起步的?编写算法的起点是什么?

Sutton:这一直以来都是一个明显的思想——一个学习系统想要一些东西而且某些类型的学习方式缺失了。在 20 世纪 70 年代,Harry Klopf(1972,1975,1982)写了几篇解决类似问题的报告。他认识到适应性行为(adaptive behavior)的关键方面是失败(being lost),而那时候学习领域的研究者几乎都将关注的重心移到了监督学习上面。试错学习的关键思想却缺失了。我们试图弄明白其中的基本思想,然后发现他是对的。这一思想还从未在任何领域得到过研究,尤其是在机器学习领域;控制论、工程学和模式识别等领域也都没有研究——所有这些领域都忽略了这个思想。你可以在 50 年代看到一些早期的研究工作,那时候有人谈论过试验神经(trial neuro),但最后它还是变成了监督学习。它有目标和训练集,并且尝试记忆和从中进行归纳。

我们现在在谈论深度学习和强化学习,这很有意思。最开始的时候,情况也是类似——试图将强化学习和监督学习区分开。我们研究的目的是获得一个可以学习的系统,那就够了。所以强化学习找到了一种可以表现和最大化这个世界的方法,而监督学习只是记忆被给出的样本然后将其泛化到新样本上——但它们需要被告知该做些什么。现在,强化学习系统可以尝试很多不同的事物。我们必须尝试不同的事物,我们必须搜索动作和空间或定义学习来最大化世界。这个思想后来被丢弃了,Andrew Barto 和我则逐渐意识到这并没有出现在之前的研究中,而这是我们需要的。简单来说,这就是我们成为了先驱的原因。

编辑注:实际上,自 1979 年以来,Sutton 博士就一直在开发和推广强化学习。和其他人一样,Sutton 博士感觉到强化学习已经在早期的控制论和人工智能研究中得到过了探索。尽管强化学习显然受到最早期的一些关于学习的计算研究的启发,但这些研究中的大部分都转向了其它方面,比如模式分类、监督学习和适应性控制,或他们整体上放弃对学习的研究。此外,那时候计算机的计算能力还是很有限的,所以要将强化学习应用到真实世界问题上是很困难的,因为强化学习涉及到大量试错,之后才能收敛到一个最优策略,这可能会需要非常长的时间。


2. || 机器之心你怎么看待强化学习自 20 世纪 70 年代以来的发展?因为那时候看起来强化学习还需要长时间的发展而且进展缓慢,你为什么还会对其有信心?

Sutton:我不同意你所说的强化学习进展很慢的说法,但我确实同意计算资源给这一领域带来了很大的影响。我们需要时间等待可用的硬件。尽管那时候对深度学习来说还有一点早,它成功地使用了大量的计算提供助力。很长一段时间以来,人们都在说我们会在 2030 年拥有足以支持强人工智能的算力。但我认为这不仅仅依赖于廉价的硬件,还依赖于算法。我认为我们现在还没有强人工智能的算法,但我们也许能在 2030 年之前实现它。


3. || 机器之心那么在 2030 年之前,硬件和软件哪一个更加关键?


Sutton:硬件优先还是软件优先,这是个大问题。我们需要软件来测试我们的硬件,我们也需要可用的硬件来推动人们研发软件。在有限的计算资源上研究和工作,即使最聪明的人也不能带来很大的价值。即使是在 2030 年我们有了合适的硬件,我们可能仍然需要 10 年以上的时间等待最聪明的研究者研究出算法。现在你理解我的推理过程了,你可以自己重新判断一下或改变你原来的想法。


3. || 机器之心近年来,人工智能已从心理学与神经科学的研究中受益良多,强化学习和卷积神经网络都是这样的例子。在你的新版《Reinforcement Learning: An Introduction》中,你也加入了相应的两个章节。心理学/神经科学对人工智能/强化学习有多重要?

Sutton:强化学习最初受到大脑运行机制的启发。目前认为大脑的运行机制类似于强化学习。这也被称作是大脑中世界系统的标准模型(standard model of world system)。之所以称之为标准模型并不是因为它是完美的,而是因为所有人都在使用它。这就像当你成名后所有人都知道你,大脑奖励机制的理论也是一样的套路。我们的大脑是研究心理学和动物行为学的完美模型。另外一个重要的事情是:这个模型是基于学习的,你可以进行规划,这是对于各种可能发生情况的响应。这也是一个强化我们进行规划的方式的模型,让我们可以从不同的后果中学习经验。考虑到两者的关系,人工智能研究者正在试图找出意识和心灵的本质。

强化学习研究决策和控制,试图让机器在未知环境中做出最佳决策。深度强化学习研究在强化学习算法中使用了神经网络,让原始感官输入到原始电机输出的映射成为可能,消除了人工设计的过程。因此,如今深度强化学习(DRL)已经成为解决诸如游戏、决策问题、机器人控制等许多类型的问题的非常流行的方法。

编辑注:Sutton 认为强化学习和深度学习的整合是很好的技术演进。在特定领域内(如计算机视觉(CV)),他说道:「你完全可以不用强化学习就完成一个计算机视觉,用已有数据集监督学习正常训练的样本,但它不会有深度学习做出的结果那么好。我认为那会需要一点聪明和想象力才能做到。我认为计算机视觉如果使用一点强化学习的话,将会出现一个技术突破。」

Sutton:强化学习的最大优势在于,你可以在正常运行中学习。传统的深度学习方式需要使用标记好的数据集进行训练,而强化学习并不需要这样做。你可以发挥想象力改变设定,因为你虽然没有足够的数据,但你知道在正常情况下应该怎么做。AlphaGo 在围棋上的胜利则是另一回事。毫无疑问 AlphaGo 是一个伟大的成就,它的水平提高速度是前所未有的。AlphaGo 的成就很大程度上归功于两种技术的整合:蒙特卡洛树搜索和深度强化学习。


4. || 机器之心让我们以 AlphaGo 作为例子。为什么自我对弈很重要?自我对弈有什么缺陷吗?人工智能可以在自我学习的过程中持续提高性能吗

Sutton:自我对弈可以生成无限多的训练数据。你不需要人力来为这些训练数据做标注,这是我们都希望得到的。由此观之,我们也可以让计算机在模拟真实环境中生存和竞争。当然,AlphaGo 缺乏一个关键要素:理解世界运行机制的能力,例如对物理定律的理解,以及对物体动作反馈的预测。

这里就出现了一个问题,你只能在虚拟环境中自我对弈,而在现实环境中我们没有类似与游戏的规则可循,现实生活是无限美好的(笑)。你知道当你按下手机上的接听键接听一个来电,将会有一些事会发生。但你无法预测会发生什么,这不是游戏里已经安排好的设定,很多事情你不知道结果会是什么。在游戏中自我对弈的缺陷就在于此。


5. || 机器之心深度学习需要大量数据。强化学习通常也需要提供大量样本进行训练。但是最近提出的 one shot learning(一次性学习)试图用很少的样本进行学习,这有点像是人类学习的方式了。你认为 one shot learning 可以用在强化学习中吗?

Sutton:目前的学习方式是慢速的,我认为 one shot 方式可以加快机器学习的速度。人类可以从一些经验中很快地学习到大量知识,这意味着我们可以进行 one shot learning,从很少的经验中汲取大量有用知识。


6. || 机器之心谈完了强化学习的优势与技术突破,让我们来谈谈它的短处。你认为去强化学习和广义上的人工智能的短处在哪里?

Sutton:有几点非常重要,其中包括一个技术问题。先来谈谈大家都能理解的吧,这也是最大的问题。强化学习宽泛地说来,就是让机器可以理解这个世界,随后利用自己所学的知识完成人类指定的任务,纠正自主行为。像 AlphaGo 和深蓝这样的程序不需要知道世界运行的规律。它们知道下一步棋可能的落子位置,知道所有下一步会带来局势上的优劣。人造系统现在已经可以在这方面做得很好了。我们希望把这种决策和预测的方式应用到其他领域中去,但这需要一种新的机制,需要让机器对世界建模。我认为这是目前最大的问题。我们现在对动态的真实世界缺乏有效的模型,无法让机器在其中对抉择与抉择的后果进行模拟以不断学习。一旦我们做到了这一点,我们就会构建出更强大的人工智能。

另外一些问题有关知识。机器要以何种方式作出预测?我们人类是以何种方式作出预测的?我们会试着用不同方法进行尝试看看后果,但不会全部试到全部结束。例如,当你走进一个房间,右手边是一杯水,有一把椅子,还有一些其他家具和人。你对房间里其他人的交流,或者和物体的交互会获得不同反馈,但人类只会去做一点点交互——也许永远不会拿起那杯水——因为我看着它就知道那是怎么回事了。这种从特定经验中学到的东西,我们称之为离策略(off-policy)学习,这种方式是目前强化学习领域中的最大挑战。


8. || 机器之心这很有趣。我们还想知道更多的细节,如何更好地理解离策略(off-policy)学习?

Sutton:想要有效地了解离策略功能,你需要规模化的学习方式、需要使用未经处理的数据,而不必要总是有标签的图像的训练集,只需要通过纯粹地与世界互动来获取经验,并学习世界的运行方式……这种强化(学习)的方法是非常有趣的思路,人们应该尝试去做。


9. || 机器之心感谢你的精彩论述。最后我们还想问问,你对强化学习的初学者有什么建议?

Sutton:学习基础知识,先找一个简单便宜的应用。从数据中推导东西的方式是有已知确定结果的。想象一下电梯,也许在午夜时你可以把它关闭来节约能源,当有人来乘坐时再把它打开。所以你需要为此设定一个时间表,收集信息在这里就很重要了,如果没人乘坐,开启的电梯就是在浪费能源。训练数据也是同样的道理,你不应该在缺乏信息的时候进行训练,请记住这个准则。



关于祖师爷:

Richard S. Sutton 教授被认为是现代计算的强化学习创立者之一。他为该领域做出了许多重大贡献,包括:时间差分学习(temporal difference learning)、策略梯度方法(policy gradient methods)、Dyna 架构。但惊人的是,Sutton 博士进入的第一个领域甚至与计算机科学无关。他先是获得了心理学学士学位,然后才转向计算机科学。但是,他并不认为自己转变了方向。他说:「和大多数心理学家关注的问题一样,我也对学习(learning)的工作方式很感兴趣,在 1977 获得了心理学学士学位;那时候学习在计算机科学领域还并不是很流行。因为我对人工智能或与人工智能相关的一切感到很好奇,所以我就选择了就读计算机科学的硕士,然后又读了博士。我对人工智能的看法受到了心理学领域关于人类和动物学习方面的影响——这也是我的秘密武器,因为人工智能领域的很多人都没有我这样的背景。我从心理学开始的,并且从中汲取了大量的灵感。」,1984 年,Sutton 博士在马萨诸塞大学安姆斯特分校(University of Massachusetts at Amherst)获得了博士学位。在 1985 年到 1994 年之间,他都是 GTE Laboratories 的计算机和智能系统实验室的技术组的主要成员。1995 年,他以资深研究科学家的身份回到了马萨诸塞大学安姆斯特分校并在那里一直呆到了 1998 年,之后他加入了 AT&T Shannon Laboratory 担任人工智能部门的主要技术组成员。他的研究兴趣围绕着决策者与其环境交互时所面临的学习问题,他将其看作是人工智能的核心问题。他也对动物学习心理学、连接网络(connectionist networks)、以及广义上的能够持续改进自己对世界的表征和模型的系统。2003 年之后,他成了阿尔伯塔大学计算机科学系的教授和 iCORE Chair,在这里他领导着自己的强化学习与人工智能实验室, RLAI 似乎在说明强化学习(RL)是所有人工智能问题的解决方案。


总结1:全网首发最全深度强化学习资料(永更)

总结2:  《强化学习导论》代码/习题答案大全

总结3:30+个必知的《人工智能》会议清单

总结42019年-57篇深度强化学习文章汇总

总结5:  万字总结 || 强化学习之路


第55篇:内推 ||  阿里2020年强化学习实习生招聘

第54篇:顶会 || 65篇"IJCAI"深度强化学习论文汇总

第53篇:TRPO/PPO提出者John Schulman谈科研

第52篇:《强化学习》可复现性和稳健性,如何解决?

第51篇:强化学习和最优控制的《十个关键点》

第50篇:微软全球深度强化学习开源项目开放申请

第49篇:DeepMind发布强化学习库 RLax

第48篇:AlphaStar过程详解笔记

第47篇:Exploration-Exploitation难题解决方法

第46篇:DQN系列(2): Double DQN 算法

第45篇:DQN系列(1): Double Q-learning

第44篇:科研界最全工具汇总

第43篇:起死回生|| 如何rebuttal顶会学术论文?

第42篇:深度强化学习入门到精通资料综述

第41篇:顶会征稿 ||  ICAPS2020: DeepRL

第40篇:实习生招聘 || 华为诺亚方舟实验室

第39篇:滴滴实习生|| 深度强化学习方向

第38篇:AAAI-2020 || 52篇深度强化学习论文

第37篇:Call For Papers# IJCNN2020-DeepRL

第36篇:复现"深度强化学习"论文的经验之谈

第35篇:α-Rank算法之DeepMind及Huawei改进

第34篇:从Paper到Coding, DRL挑战34类游戏

第33篇:DeepMind-102页深度强化学习PPT

第32篇:腾讯AI Lab强化学习招聘(正式/实习)

第31篇:强化学习,路在何方?

第30篇:强化学习的三种范例

第29篇:框架ES-MAML:进化策略的元学习方法

第28篇:138页“策略优化”PPT--Pieter Abbeel

第27篇:迁移学习在强化学习中的应用及最新进展

第26篇:深入理解Hindsight Experience Replay

第25篇:10项【深度强化学习】赛事汇总

第24篇:DRL实验中到底需要多少个随机种子?

第23篇:142页"ICML会议"强化学习笔记

第22篇:通过深度强化学习实现通用量子控制

第21篇:《深度强化学习》面试题汇总

第20篇:《深度强化学习》招聘汇总(13家企业)

第19篇:解决反馈稀疏问题之HER原理与代码实现

第18篇:"DeepRacer" —顶级深度强化学习挑战赛

第17篇:AI Paper | 几个实用工具推荐

第16篇:AI领域:如何做优秀研究并写高水平论文?

第15篇: DeepMind开源三大新框架!
第14篇: 61篇NIPS2019DeepRL论文及部分解读
第13篇: OpenSpiel(28种DRL环境+24种DRL算法)
第12篇: 模块化和快速原型设计Huskarl DRL框架
第11篇: DRL在Unity自行车环境中配置与实践
第10篇: 解读72篇DeepMind深度强化学习论文
第9篇: 《AutoML》:一份自动化调参的指导
第8篇: ReinforceJS库(动态展示DP、TD、DQN)
第7篇: 10年NIPS顶会DRL论文(100多篇)汇总
第6篇: ICML2019-深度强化学习文章汇总
第5篇: 深度强化学习在阿里巴巴的技术演进
第4篇: 深度强化学习十大原则
第3篇: “超参数”自动化设置方法---DeepHyper
第2篇: 深度强化学习的加速方法
第1篇: 深入浅出解读"多巴胺(Dopamine)论文"、环境配置和实例分析


第14期论文:  2020-02-10(8篇)

第13期论文:2020-1-21(共7篇)

第12期论文:2020-1-10(Pieter Abbeel一篇,共6篇)

第11期论文:2019-12-19(3篇,一篇OpennAI)

第10期论文:2019-12-13(8篇)

第9期论文:2019-12-3(3篇)

第8期论文:2019-11-18(5篇)

第7期论文:2019-11-15(6篇)

第6期论文:2019-11-08(2篇)

第5期论文:2019-11-07(5篇,一篇DeepMind发表)

第4期论文:2019-11-05(4篇)

第3期论文:2019-11-04(6篇)

第2期论文:2019-11-03(3篇)

第1期论文:2019-11-02(5篇)




登录查看更多
0

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【圣经书】《强化学习导论(2nd)》电子书与代码,548页pdf
专知会员服务
201+阅读 · 2020年5月22日
《强化学习》简介小册,24页pdf
专知会员服务
272+阅读 · 2020年4月19日
【强化学习】深度强化学习初学者指南
专知会员服务
179+阅读 · 2019年12月14日
强化学习的未来——第一部分
AI研习社
9+阅读 · 2019年1月2日
入门 | 从Q学习到DDPG,一文简述多种强化学习算法
【深度强化学习】深度强化学习揭秘
产业智能官
20+阅读 · 2017年11月13日
【强化学习】强化学习入门以及代码实现
产业智能官
18+阅读 · 2017年9月4日
技术 | 强化学习入门以及代码实现
AI100
51+阅读 · 2017年8月26日
Deep Reinforcement Learning: An Overview
Arxiv
17+阅读 · 2018年11月26日
Arxiv
3+阅读 · 2018年10月5日
A Multi-Objective Deep Reinforcement Learning Framework
Arxiv
5+阅读 · 2018年6月12日
Arxiv
11+阅读 · 2018年4月25日
Arxiv
5+阅读 · 2018年4月22日
VIP会员
相关论文
Deep Reinforcement Learning: An Overview
Arxiv
17+阅读 · 2018年11月26日
Arxiv
3+阅读 · 2018年10月5日
A Multi-Objective Deep Reinforcement Learning Framework
Arxiv
5+阅读 · 2018年6月12日
Arxiv
11+阅读 · 2018年4月25日
Arxiv
5+阅读 · 2018年4月22日
Top
微信扫码咨询专知VIP会员