▼
点击上方蓝字 关注网易智能
为你解读AI领域大公司大事件,新观点新应用
选自 | Factor Daily
作者 | Sriram Sharma
编译 | 网易智能(smartman163)
期号 | 《AI英雄》总第83期
强化学习是一个相当复杂的话题,它可以充实你的大脑,让你享受一种智力追求。它也是人工智能研究领域最热门的话题之一:麻省理工学院技术评论将其列为2017年十大科技之一。在过去的10年里,“强化学习”刷新了人工智能领域最华丽的胜利记录:AlphaGo打败了世界冠军李世石,在4比1输给AlphaGo后,李世石表示,这感觉就像是在与外星人智囊相作战。许多人工智能研究人员认为,强化学习,简称RL(Reinforcement Learning ),是帮助人类攀登最高峰的道路:即通用人工智能。
为了揭开人工智能研究领域的神秘面纱,FactorDaily采访了玛德拉斯印度理工学院(IIT Madras)的巴拉拉曼·拉文德兰教授,他被广泛认可为印度最具权威的强化学习专家。
“我同意,因为我是唯一的一个,”他笑着说。他说:“那是半开玩笑的,但自从我从美国回来后,我就一直在研究RL(强化学习),即使在那之前也是如此。”拉文德兰曾在马萨诸塞大学阿莫斯特分校攻读博士学位,他的导师是RL元勋安得烈·G·巴托教授。
根据全球人工智能研究2018年报告显示,在印度,像拉文德兰这样的人工智能研究人员十分稀有,特别是考虑到印度政府越来越重视在农业、教育、医疗和国防等各个领域部署人工智能的发展。今年,我们听说了使用人工智能寻找3000名失踪儿童的案例,以及改善铁路列车卫生状况的例子。
拉文德兰的学术著作跨越了20多年,根据谷歌学者资料,他已经发表了170篇研究论文,其中12篇是2018年见刊的。他还在印度和世界各地协助举办了几十个以数据科学与人工智能为主题的会议、研讨会或研习班等。我们向他讲述了他的强化学习之旅,在家里对他进行了各种各样的关于人工智能的提问——包括我们是否存在人工智能泡沫,人工智能的民主化进程以及其与炼金术的比较,等等。
可以肯定的是,印度还有其他的人工智能专家,但是普遍认为,拉文德兰在RL上的卓越地位是独一无二的。
在“人工智能热”冷却之前,一起来探讨人工智能
拉文德兰教授对人工智能的热情始于上世纪80年代末,当时他在马杜赖的Thiyagarajar学院学习电子学和通信工程专业。他最早涉足这一领域缘于一本关于“人工智能”的书,书名叫《人工智能》,是他的父亲在新加坡旅行时送给他的。他在大学一年级读了这本书,从而激发了他对这个领域的兴趣。他说:“这是一本非常经典的老式教科书。”
“我总是对智力着迷。人类是怎么想的?聪明是什么意思?我想做神经网络,因为神经网络源于生物学,神经科学。他说:“宏观想法就是试图解释大脑是如何运作的。”
正如我们今天所知道的,新人类大约有20万年的历史,但是要将之与“人类”以及人类的大脑相区别,其根源可以追溯到更早的时候;地球估计有45亿年的历史。在阅读了Read Montague的一篇神经科学论文后,他对强化学习产生了更加强烈、专注的兴趣。
“他已经开始研究灵长类动物是如何学习的,然后他就得出了一些非常有趣的结果,那就是大脑中某种叫做多巴胺的神经调节剂是如何随着灵长类动物的学习而变化的,” 拉文德兰说。“他做了所有关于猴子的实验,然后他发现了一个叫做时间差异学习的数学学习模型,它可以解释多巴胺在大脑中是如何变化的。”
拉文德兰通过班加罗尔印度科学研究所的硕士论文导师找到了一名熟练工人。萨蒂亚凯·尔蒂和他着手写一篇关于强化学习的调查论文。这份调查报告变得如此受欢迎,以至于牛津大学出版社邀请他们在关于神经计算的手册中专门就此列出一个章节。那篇论文也让拉文德兰进入了RL的发源地阿默斯特,在那里,他的顾问巴尔托 发表了第一篇关于此话题的论文。
“让我涉足RL的原因是它与神经科学的关系,让我继续做RL领域的由于它与心理学的关系,”教授叙述了他的经历。他继续探索RL与行为认知心理学之间的联系,这与记忆、等级以及表现相关。“我如何用人工智能做这样的事情呢?这些问题让我很兴奋,”他说到。
勇敢面对人工智能的寒冬
“人工智能正在走向没落,”他在自己位于玛德拉斯印度理工学院办公室里的一次会议上说,并讲述了在90年代中期人工智能的发展状况。他说,那时是人工智能的冬天,尤其针对于人工智能符号学派和联结学派的一面,他提出了一个后续问题:“所以你知道符号学派和联结学派的区别吗?”教授问我们。
得益于我们之前对“主算法”的阅读,我们可以回答是。佩德罗·多明斯在他的书中定义了机器学习的五个学派,即:符号学派、联结学派、进化学派、贝叶斯学派、类推学派。每一个都有不同的起源和算法技术——联结学派的方法起源于神经科学,而符号学派则起源于逻辑和哲学。“联结学派是一种将一切都矢量化的人,他们在矢量空间中运作;符号学派是那些喜欢将抽象与不同概念联系起来的人,”拉文德兰解释道。
拉文德兰教授的前博士导师安得烈·巴托被认为是强化学习的创始人之一。2004年,他从美国获得博士学位后,正在找工作,并在伊特马德拉斯找到了一个空缺职位。从那以后,他就一直在那里工作。
他是第三代教师——他的外祖父是一位英语教授,他的母亲是一位经济学教授。他们对他作出成为一名教师的决定有很大的影响。“我从五岁的时候就知道了这一点。我从来没有考虑过其他的职业选择,我一直想成为一名教师,”他说。
“当然,每个人的职业生涯都有糟糕的日子,但总的来说,作为一名教师是非常非常有益的。”我知道我对许多学生的生活产生了影响……有一些人在十几年后回到我这里寻求建议。”果然,我们在他的桌上发现了他以前一个学生的结婚邀请。
除了斯瓦米维韦卡南达的照片外,拉文德兰的办公室还有另外两种引人注目的地方。其中一幅是他的一幅肖像,是由以前的学生凭借“记忆”画出的。第二幅是艾伦·图灵的画像,并附有几位图灵奖获得者的签名。拉文德兰之前的几名学生现在为微软、谷歌、IBM和亚马逊等科技巨头工作。
一个学生谈到了拉文德兰的“机器学习导论”课程。“正是他独特的教学风格让我和一群朋友迷上了这个话题和领域——他对相关领域材料的热情,以及他给出的直观例子。” 阿比什克·内克说到,他是一名学生,正在IIT Madras攻读双学位,最近他在马德拉斯做了大量的工作,这是一个开源的多代理驾驶模拟器。“和他一起工作是非常有益的,因为每次会议结束后,你都会走出他的办公室,同时充满新的想法和探索方向。” 内克认为这不仅局限于拉文德兰对RL的认识,还归功于这些想法背后的认知心理学动机。
拉文德兰教授与他的博士生导师安德鲁·巴托被认为是强化学习的创始人之一。
那么,RL到底是什么?
机器学习方法分为三种类型:监督、无监督和强化学习。拉文德兰解释说,所有的机器学习都是在解决一些优化问题,前提是基于操作的约束条件。“机器学习的大部分尝试都是学习某种模式。大多数学习模式将会是这样的:你得到了一组输入,以及相应的输出应该是什么,”他说道。
但还有另一类问题,很难确定是什么导致了正确的输出。拉文德兰用一个如何循环的例子进行解释。“没有人告诉你(如何)……你的周期倾斜角度,你前进的速度,风吹的速度,或者用你的右腿向下推,”拉文德兰说。“但你有一些反馈:如果你摔倒了,就会受伤。”如果你骑得很好,你的父母就会站在旁边,鼓掌鼓励。你没有得到指示,而是正在被评价。”RL就是从这种评估中学习,尝试和错误,而不是从指令中学习。
强化学习的应用案例
RL在玩游戏方面取得了显著的成功——最近的例子是,国际象棋、西洋跳棋、单人纸牌和西洋双陆棋都被认为是早期的成功案例。拉文德兰将其归因于这样一个事实:很容易获得大量重复的经验,从而更容易优化和调节参数。
“这并不意味着RL只在游戏领域工作。我正在和一个管理研究的同事合作,在风险建模中使用RL,”教授说。其他值得注意的现实例子包括自主直升机控制、优化数据中心的电力消耗和机器人足球。
如果机器学习是困难的,RL,更确切地说,是深度RL——是的,有一种叫做深层RL的东西——是非常困难的。“这是非常困难的,因为它不仅面临着深度学习的所有问题——例如样本效率、泛化和再现性——但是,对于这些问题,在深度学习文献中提出的大多数解决方案在这里也不适用,是由于具有额外的挑战(例如,数据的时间相关性)。”拉文德兰学生说。
“尽管存在这些错综复杂的挑战,但我坚信,RL是实现令人垂涎的人工智能关键组成部分,”内克认为。我们今天所说的人工智能大部分是自动号码识别(人工智能),即一个特定任务的专家。例如,一个聊天机器人不能骑自行车。通用人工智能,或者AGI,虽然还没有实现,但它的目标是创造一个智能系统,它可以在任务中执行各种各样的认知功能,并在任务中进行推理和改进,就像人类一样。内克补充道:“因为RL是受人类学习方式的启发,再加上各种各样的技术,它就成为了学习执行多种不同任务的好地方,从对环境的局部观察到反复试验逐步进行。”
宏观问题
作为一名在这一领域工作了几十年的机器学习从业者,拉文德兰认为,人工智能现在正处于其“炒作周期”的高峰期,这是由于这十年来取得的一些突破。
ImageNet挑战在2012年取得了深刻的学习突破,随之而来的是对人工智能公司的投资激增。在语言嵌入空间和语音识别方面也取得了一些成功——所有这些问题在人工智能领域都难以解决。
“这是一个淘金热的心态。这是一个泡沫,它必然破裂。我不认为在很多炒作背后都有现实,”拉文德兰说。“说人工智能是一种万能药,它能解决你所有的问题……还为时过早。”“在未来的某个地方,人们的期望会有所调整。”他说。
也就是说,他欢迎人们对人工智能进行关注,因为现在人们对人工智能技术的探索更加开放。“这很大程度上是因为炒作。但我们可以利用它,并据此建立成功的故事。你必须确定人工智能取得巨大成功的领域,拥有巨大的增长潜力,并在那个领域投资。”
我们离AGI(通用人工智能)还有多远?拉文德兰乐观地回答说,这将发生在他的有生之年——或者未来的40年之内。目前,机器并不能与人类两岁孩子的智能能力相当。“我们还有很长一段路要走,才能达到类似人类水平的人工智能能力,但在某些领域,我们已经实现了超人的表现。他预测,我们获得这种惊人表现的那些领域将会继续发展。
人工智能的民主化
虽然像谷歌的Tensorflow这样的工具已经让人工智能民主化,但对数据集的访问还没有实现民主化,拉文德兰说,像“谷歌、微软和IBM这样的公司可以解决很多有趣的问题,而我们主要是因为无法获得数据。”他说,事实上,对于学术研究者来说,相比较于在科技巨头工作所挣的钱,现在的数据资源更能吸引他们。“让人们留在大学里真的很难。”
谷歌的人工智能研究人员阿里▪拉希米在神经信息处理系统(NIPS)研讨会上发表获奖感言时,提出了另一个比喻,即“人工智能是新电力”这一说法。机器学习已经变成了炼金术,拉希米假设道。
拉文德兰同意。“完美的类比。”当被问到拉希米的声明时,他说:“完全同意他的观点。”“每当我们说炼金术的时候,我们就会想到铁变成了金子。但这并不是炼金术的唯一部分。各种染料,甚至冶金都来自于炼金术。当时,对于他们想要解决的问题,炼金术是有效的,但因为它起作用,它推迟了真正科学的出现,” 拉文德兰说,他是自己内心深处的思想家。
“人工智能就像炼金术,帮助我们解决眼前的问题,但它也妨碍了对智力的真正理解…这还不是真正的科学,”他说。
当印度人工智能的历史被书写时,这句话将会在社会中得到呼应。
(选自:Factor Daily编译:网易智能 参与 Sarah:)
- 加入社群吧 -
网易智能AI社群(AI专家群、AI黑板报)火热招募中,对AI感兴趣的小伙伴,添加智能菌微信 kaiwu_club,说明身份即可加入。