强化学习之父Sutton访谈:创造AI,就是创造一种新的人类

2017 年 11 月 27 日 新智元


新智元AI World 2017世界人工智能大会开场视频


中国人工智能资讯智库社交主平台新智元主办的 AI WORLD 2017 世界人工智能大会11月8日在北京国家会议中心举行,大会以“AI 新万象,中国智能+”为主题,上百位AI领袖作了覆盖技术、学术和产业最前沿的报告和讨论,2000多名业内人士参会。新智元创始人兼CEO杨静在会上发布全球首个AI专家互动资讯平台“新智元V享圈”。


全程回顾新智元AI World 2017世界人工智能大会盛况:


新华网图文回顾
http://www.xinhuanet.com/money/jrzb20171108/index.htm

爱奇艺
上午:http://www.iqiyi.com/v_19rrdp002w.html

下午:http://www.iqiyi.com/v_19rrdozo4c.html

阿里云云栖社区
https://yq.aliyun.com/webinar/play/316?spm=5176.8067841.wnnow.14.ZrBcrm











  新智元编译  

编译:Cecilia 弗格森


【新智元导读】在Machine Learning and the Market for Intelligence 2017大会上,“强化学习之父”Richard S. Sutton与美国企业家、风险投资人士Steve Jurvetson进行了关于“为何目标对于智能至关重要”的对谈。Sutton表示,创造人工智能就是在创造一种新的人类。我们应对此感到欢欣鼓舞。



在Machine Learning and the Market for Intelligence 2017大会上,艾伯塔大学计算机科学教授Richard S. Sutton与美国企业家、风险投资人士Steve Jurvetson进行了关于“为何目标对于智能至关重要”的对谈。




Richard S. Sutton是艾伯塔大学计算科学系的教授兼iCORE主席。在2003年加入艾伯塔大学之前,他曾在美国AT&T公司和GTE实验室以及马萨诸塞大学工作。他于1984年获得马萨诸塞大学计算机科学博士学位,并于1978年获得斯坦福大学心理学学士学位。2016年他当选为加拿大皇家学会会员。在艾伯塔大学,Sutton领导了强化学习和人工智能实验室,是艾伯塔机器情报研究所的首席研究员。他的研究兴趣集中在决策者与环境相互作用所面临的学习问题上,他认为这是人工智能的核心。他还对动物学习心理学,连接网络以及不断改进世界的表征和模型的系统感兴趣。Richard Sutton 被认为是强化学习之父。今年6月,Demis Hassabis宣布Richard Sutton将联合领导一个位于加拿大的DeepMind办公室,同时在艾伯塔大学保留他的教授职位。




Q: AI以人类为中心?或是一个完全不同的物种(对人类生存具有攻击性和毁灭性)?(human-centric or alien AI)



A: 我想提出一种观点,AI比我们想的更加以人类为中心。通常的观点都是认为AI与人类相对立,机器会淘汰人类。但这仅是一家之言,因此我提出另一种观点来平衡上述观点。先从“人工智能”这个名字说起。这个名字暗示着这是一种和人类智能不同的智能,是人造的智能。但首先我们要定义这是一种与人类相似的智能。所以从定义来看,AI是以人类为中心的。因此,也许我们不该把它叫做“人工智能”,我们应该直接叫它“智能”。现在人们都把AI看作是一种工程上的存在,不是一种类人的存在。但我认为,在当今很多领域,AI都是以人类为中心的。比如机器翻译就是关于人的沟通。因此,AI实际上是在增强 (enhancing) 人类,这也是AI具有重要商业意义的原因。AI不是在完虐人类,而是在增强人类。



Q: 这听起来很像是人类的感知,视觉、触觉、听觉乃至嗅觉都已经通过模拟的方式被使用了。这意味,我们可以了解经过刻意训练的输入输出。但我们真的了解内在原理吗?



A: 这同样涉及到人类。人类也有神经网络,用来形成反射、反应、直觉等。我们不了解人类是如何做到这些的,但我们就是相信。人们为什么相信司机、飞机驾驶员?为什么相信那些做重要商业决策的人?这个道理同样适用于机器。从宇宙范围来看,人类就是一种地球上能够发明工具的动物。历史上,人类通过发明工具、创造技术来增强自身。比如,铅笔、眼镜这些都是异常强大的工具。而且语言本身就是最重要的工具。我们用眼镜增强自己。我们通过语言来更好地交流合作。所以,人类通过创造工具来过得更好。这和AI没什么差别。无法将人类与技术割裂开来。



Q: 你是否相信,有一天自主代理机器人情感系统将成为通往通用人工智能的一步?



A: 我认为预测是一个很微妙复杂的事情。作为普通人,预测能使人作出更好的决策。但AI超越了这一点。AI将决策、目标和预测整合在一起。就像养育孩子一样,孩子是自主的,他们的目标并不在家长的掌控之下。我的专长是建立一个类似的情感系统,有绝对的自主权和决策权。



Q:你提到了好几次“目标”。看起来这是一个关键因素。你认为这是一个通向更高智力水平的路径吗?



A: 是的。我们要有更多、更抽象的目标。但不能光有目标,而没有实现目标的系统。


“目标”是一个简单的词,但你很可能会被误导。处理方法是去找一些更长的词组,例如“寻找目标”、“目标性”等。“目标”对于智能来说是至关重要的。假设有一个非常聪明的存在能够进行预测,它有一个想达成的目标。它就能根据目标采取行动。


另外,我还想谈一下人们对AI的担忧。有很多报道都将AI和人类对立起来,认为我们终将被淘汰。这种想法是错误的。在我看来,AI将增强人类,它将淘汰的是人类的“旧我”(former selves)。但我承认的确存在这种将AI与人类对立起来的趋势。我认为这都是“人工智能”这个名字惹的祸。这让AI听起来很像外星人。

 

我想说的是,我们正在设计创造一种全新的人类。我们将要创造一种新的存在,可能和人类的肤色、宗教略有不同。人类对此感到恐惧,这是正常的。人们总是对与自己不同的事物心生恐惧。Alpha Go是一个很好的例子。在西方,很多人认为它是与人类相对的机器。但在围棋社区里,有人认为它是一个神奇的机器,能够很好地去理解围棋,与人们一道加入对于围棋这项优雅游戏的无限探索之中。因此,我认为我们需要学会来欢迎AI这种不同类型的“人”。它具有如此多的多样性,我们为何不欢呼庆祝?



Q:我们想听听您评价AlphaGo Zero。问题是扔掉人类的训练数据集似乎是创造更好的产品的一个方式这如何适用于这种框架



A:我们需要可扩展的方法。现在没有人这么做,这让我很吃惊,没有人展示计算机计算能力的指数级增长。你知道,现在这有一点mundane,但是这是一个复杂的效果,我们很难去意识到,我们需要可以扩展的方法和强大的计算力。我的意思是不仅要扩展问题的大小,还有随着计算力一起扩展,你的计算能力越强,你的系统效果就越好。所以如果你是从人类的数据库中进行学习那么很快训练数据集很快就会成为你的瓶颈。



Q:早期在计算机国际象棋上的研究发现最高段的棋手+计算机的组合并没有直接使计算机能力更强最新的AlphaGo Zero,如果我没有理解错也是没有进入人类训练这一循环只需要与其他的计算机进行对抗学习。从哲学上说这跟您刚才所提到的以人类为中心(huaman centric approach)似乎是完全相反的



A: 其实不是的。作为人类,我们并不只是在学校才会学习。我们从很小的时候就开始学习,甚至在还没开始说话前,我们就开始学习。我们通过试错进行学习。


接下来我要谈一谈强化学习这是我所擅长的专业领域也是我最喜欢的一种学习。强化学习就是在试错中进行学习这种试错中使用的是自学习的方法你需要在很多很多的对局中进行尝试。所以这并不是从人身上进行学习而是以人类学习的方式进行学习。这和人类很像就是从不断的尝试中进行学习。


确实,在游戏的对弈中,你可以进行无数次的尝试,这一方法(AlphaGo Zero)确实利用了这一点。但是,试错这一想法本身并不要求有模拟。


我还要补充一点,博弈是很特殊的,因为我们知道游戏的规则,我们可以分解它让后知道其运行的规则是什么。我们知道桌上的花瓶可能会掉到地上,因为我们知道物理理论,知道物体移动的方式,所以我们需要制定计划。


正如AlphaGo要用到现实世界,你需要用现实世界的规则来替代围棋的规则,比如,物理定律是什么、很重要的是,物理定律很多都是直觉性的,比如,我打了我朋友一拳,他可能会还回来。这可能不是物理定理,比如如果我尖叫,那么我的保镖可能会过来提供帮助。


所以,我们需要了解世界的运行方式,我们需要制定计划。在象棋、围棋和扑克中,我们可能不能计划得那么好。





登录查看更多
4

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
多智能体深度强化学习的若干关键科学问题
专知会员服务
186+阅读 · 2020年5月24日
《强化学习》简介小册,24页pdf
专知会员服务
272+阅读 · 2020年4月19日
【干货51页PPT】深度学习理论理解探索
专知会员服务
61+阅读 · 2019年12月24日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Joint Monocular 3D Vehicle Detection and Tracking
Arxiv
8+阅读 · 2018年12月2日
Arxiv
11+阅读 · 2018年4月25日
VIP会员
相关VIP内容
多智能体深度强化学习的若干关键科学问题
专知会员服务
186+阅读 · 2020年5月24日
《强化学习》简介小册,24页pdf
专知会员服务
272+阅读 · 2020年4月19日
【干货51页PPT】深度学习理论理解探索
专知会员服务
61+阅读 · 2019年12月24日
Top
微信扫码咨询专知VIP会员