深度|Michael I. Jordan：人工智能的研究机会和挑战

2017 年 8 月 16 日 蚂蚁程序猿 人工智能

蚁哥导读

迈克尔·乔丹（Michael I. Jordan）应该没有人不知道吧。

如果你看到这个名字第一反应是打篮球那个乔丹，而不是蚂蚁金服的科学智囊团主席、蚂蚁金服首位技术顾问、人工智能领域的根目录人物，那我蚁哥该说你是技术水平不达标，还是价值观不达标呢？╮(╯﹏╰)╭

搞人工智能研究的应该不可能不知道，Jordan被认为是两位根目录人物之一（另一位是深度学习鼻祖Geoffrey Hinton），他的学生桃李满天下，比如深度学习领域权威Yoshua Bengio，贝叶斯学习领域权威Zoubin Ghahramani，以及前百度首席科学家吴恩达等等。

不久前，迈克尔·乔丹受聘蚂蚁金服科学智囊团主席，不知道这个消息的同学可以点击链接回顾一下。在受聘仪式当天，Michael I. Jordan还与蚂蚁金服内部各位技术同学分享了他的人工智能观点。这么难得一遇的优质内容，心系粉丝的蚁哥怎么会忘记了大家呢。下文便是人工智能师祖Michael I. Jordan的演讲内容精选。

演讲者介绍

Michael I. Jordan（迈克尔·乔丹） ：现执教于加州大学伯克利分校，任电气工程与计算机科学系和统计系杰出教授 (Distinguished Professor)。 Jordan教授是美国科学院、美国工程院、美国艺术与科学院三院院士，是机器学习领域唯一一位获此成就的科学家。他是多家国际顶级期刊和国际顶级学术会议（AAAS、AAAI、ACM、ASA、CSS、IEEE、IMS、ISBA、SIAM）的会士。他曾获IJCAI研究卓越奖（IJCAI Research Excellence Award）（2016）、David E. Rumelhart奖（2015），以及ACM / AAAI Allen Newell奖（2009）等。2016年，Jordan教授被Semantic Scholar评为CS领域最具影响力学者。Jordan教授指出了机器学习与统计学之间的联系，并推动机器学习界广泛认识到贝叶斯网络的重要性。他还以近似推断变分方法的形式化、最大期望算法在机器学习的普及方面的工作而知名。其研究兴趣涵盖机器学习、统计、认知和生物科学等领域，近年来尤其集中在非参数贝叶斯分析、概率图模型、谱方法以及分布式计算、自然语言处理、信号处理和统计遗传学等方面。Michael I. Jordan教授是伯克利RISELab负责机器学习领域的主教授，蚂蚁金服于2017年1月正式与伯克利RISELAB建立了战略级合作关系，致力于“实时智能决策系统”以及CHATBOT和共享学习上的产学研的合作。 Jordan教授的学生包括 Yoshua Bengio（深度学习大神之一）、Andrew NG（吴恩达，前百度学院院长）、贝叶斯学习领域权威Zoubin Ghahramani、斯坦福大学教授Percy Liang等人，他是机器学习领域最重要的奠基人之一，教父级人物。

Michael I. Jordan：人工智能的研究机会和挑战

人工智能等未来科技，它正在改变我们的世界。过去30年来，我所在的研究领域更是有着极大的变化。然而，我们对当下这些技术的构建和未来技术发展的理解还远远不够。因此，我们正面临着诸多技术的难题和挑战。

首先简单做一下自我介绍，我于1998年加入加利福尼亚洲大学伯克利分校，并担任教授，在机器学习以及统计学领域已有30年的研究经验。因此，我对大规模数据的研究非常感兴趣。在过去的几年来，这些不断增长扩大规模的大数据让我们这些科学家和研究人员十分兴奋。利用这些丰富的数据，我们可以打造更多细分的市场和服务。这些让人充满想象的业务模式和市场，例如金融市场，让我感到非常的兴奋和激动。因此，我非常高兴能够加入蚂蚁金服团队，我也非常开心能与蚂蚁金服的同事们共事。

人工智能的一些观点

首先给我想和大家一起讨论一下人工智能（ArtificialIntelligence，AI）。

越来越多的人开始讨论AI。人工智能过去10-20年的飞速发展，实际上是是机器学习的增长和统计学的发展。但归根结底，无论是人工智能的发展亦或是机器学习的发展，核心都是依赖数据的积累和发展。如今，AI这个词不断被高频地提及。那么究竟什么是AI，它的目标是什么呢？人工智能现在发展到什么程度了，接下来又有哪些发展方向呢？

首先，提到人工智能，大家脑海里的第一个形象通常是机器人。就像电影《我，机器人（I, Robot）》中的智能机器人一样，人类可以与它进行智能的互动。因此，有些人觉得人工智能就是指这方面的进展。它可以和你沟通，甚至照顾你的衣食起居。这也是我们在电影等艺术作品中常见的人工智能形象。

▲《我，机器人（I, Robot）》电影剧照

关于人工智能的第二种常见理念，我们把它叫做增强智能（Intelligence Augmentation），简称为IA。什么叫增强智能呢？就好比你用搜索引擎搜索这个词，你会发现它能在很短的时间内返还给你数量庞大的结果，这些结果你凭人脑的力量是完全无法记住的。增强智能就像搜索引擎这类工具，它能够帮你完成一些此前人力所不能及的任务。除了搜索引擎之外，大家日常可以体验的增强智能技术还包括推荐系统，网站能够根据你的喜好更个性化的为你提供推荐；机器翻译系统，计算机能够轻松帮你在多门语言之间自如切换。

第三个则是人工智能基础设施层面的。从更广泛的意义层面来说，人工智能更可以代表人们生活周围的基础设施，例如交通网络、智能家居、城市规划、甚至是金融网络等。结合人工智能技术，这些基础设施可以更加智能化，也更加可预测。我们可以直观的感受到，人工智能技术给我们的生活所带来的影响，这一点在中国相信大家也感同身受。我们可以更轻松的获得更多的信息，并利用这些信息做我们想做的事情。

最后，还有一种人工智能的观点是“混合”，也就是将以上三个观点进行整合。如自动驾驶、人工智能医生助手、教育平台等。它不仅能够作为一个实体与人们进行互动，还能从不同角度为人们赋能，创造更大的价值。

人工智能哪些可以实现，哪些是不可以实现的？

当然，我们不可能把所有东西都实现出来。下面，我将就计算机视觉、语音识别、自然语言处理和机器人这四个研究方向和大家分享一下当前的研究进展。

计算机视觉

关于计算机视觉的未来愿景，我们已有很多探讨。十几年前可能还做不到的图像识别技术，现在已经实现了质的突破。目前，计算机已经能够在复杂的图像中准确识别出特定的物体。但是目前计算机还缺乏对视觉场景常识性的理解。例如，如果我走近舞台的边缘，你会感觉到我很有可能从舞台上摔下来。你可以从场景中判断接下来会发生什么，以及为什么会出现现在的场景。目前我们还远没有实现这方面的能力，但这在未来是有可能实现的。

语音识别

目前，关于语音识别的研究我们进展到了哪里呢？目前，从语音到文字的相互转化，已经在诸多语种中成功得以应用。但是，目前计算机的听觉能力还十分局限。例如，如果你闭上眼睛，只凭听觉来感受周围的环境，你可以知道你正身处于是安静的公园还是繁华的街道，你可以根据声音来推断周围的人和物的方位。从听觉的角度来说，计算机目前还缺乏这一类的常识性认知，如果再加上复杂的语言信息，那就更是难上加难。

自然语言处理

相比于前面提到的计算机视觉和语音识别问题——这两个问题还相对比较容易，自然语言处理则十分困难。当然，我们能看到机器翻译目前已经取得了很大的进展，但是它仍然会错漏语言中的诸多细节。毫无疑问，当下的机器翻译使用的神经网络技术能对海量的不同语言数据进行计算和匹配。但人类学习语言的方式则和计算机则大不一样。例如，我也会意大利语，但是当我把意大利语翻译成英语时，我更多的是对意大利语句进行理解和消化，再将这个语义用英语表达出来。此外，问答（QA）也是自然语言处理研究的经典问题。目前问答系统的研究只能回答一些条件明确、答案简单的简短问题，而无法对真实世界问答场景中复杂的问题作出复杂的回答。最后，人们语言中的语义繁复多样，有同义词、近义词和反义词等问题，一个词组在不同的语言场景中可能蕴含多种含义。不同语言之间的表达方式和习惯更是有所不同。对于人类来说，我们在从小到大的学习过程中学会了如何辨别这些复杂的语境，但计算机目前还远不能做到这一点。

机器人科学

目前，在工业界正在使用的机器人只能程序化地完成一些固定的任务，这与我们想象中的“人工智能机器人”区别较大。机器人科学有助于实现人工智能研究的最终愿景——我们希望未来人工智能机器人能够自主的运行，并与我们互动。

人工智能的未来十年愿景

接下来，我和大家讨论一下人工智能未来十年的愿景。

我虽然不是预言家，但我认为上面列出来的这些内容在今天无法实现，但未来十年则有可能变成现实。业界有许多公司和机构正在从事这些方面的研究，以期最终推出合适的解决方案。例如未来十年，自动驾驶汽车甚至是无人驾驶的空中出租车是有可能实现的，虽然眼下这些技术的使用体验还不甚良好，但是可以期许的是未来十年这些前沿技术应该可以为人们所用。

在技术的可用性上面，相信十年后就可以达到一个比较理想的情况。当然在未来十年之内，人工智能系统的“智能”还非常有限，你并不会觉得它能和人类一样智能了。我认为未来十年这些AI系统还不能像人类这样有这么高的灵活性和创造性。

AI系统往往局限于某个特定领域，它们能够理解的语义也是十分有限的。至于AI系统在人机交互的过程中能够产生什么样的理解，是否能实现预测、计划等高级智能——实际上我们离这一步还非常遥远，至少要花几十年的时间，甚至数百年时间才能让机器人了解人类。

如此说来，人工智能研究还有哪些是在我们有生之年很难实现的呢？

可以说，创造力和智能对于人工智能系统来说还很难实现，推理和抽象能力的实现也似乎遥不可及。例如在社交媒体上，人们时常会创造出一个新的词汇，而其他人也能很容易理解这个词在这个语义背景下的意思，而不需要像计算机一样通过读几千个句子来理解。此外，对于AI系统来说，让它主动做一个长远的规划是非常困难的，而人类却经常会给自己主动设定一些雄心壮志的目标。

此外，AI技术的发展还存在着许多其他的限制，它远没有一个正处于成长期孩子那样强大的学习能力。孩子可以通过少量书本上的图片和信息了解世界，但是AI即使看过了无数张图片和信息，仍然很难对世界产生自己的“理解”。我并不觉得在可见的未来有什么超人类AI的存在。当然有些并不是AI研究领域的人会鼓吹以后会出现超人类的机器人。我并不认为这种情况会发生，也没有理由会发生。

当然你也有可能不认同这种观点，例如你会觉得计算机比人类的处理能力要强大得多。但人们目前对“智能”的了解十分有限，因此也无法预估实现真正的人工智能需要多强的运算能力。我们现在能看到的是计算机能够处理大量的数据，但它在做假设、推理等方面的能力还是非常有限的。计算机虽然能识别这些场景，但是它无法了解场景的作用和意义。人类目前花费大量的精力在帮助机器理解现实世界，但计算机是没有主动学习能力的。计算机和人类的差异巨大，更遑论自我认知等更高层面了。

不久前AlphaGo横扫围棋界让人们惊呼人工智能强大的“智能”水平。但实际上我觉得围棋并不是一个非常困难的游戏，因为这些棋局就在你面前，每一步的选择都是有限的。但在实际生活当中，我们做出的判断和面临的选择常常没有边界——门外的世界一切皆有可能，你脑海中的世界也天马行空。围棋，确实需要超级计算机来计算海量的可能性，但围棋的选手并不是以机器的方式来思考的。因此，我们并不能声称机器在围棋上打败了人类，就比人类更聪明。但是好在，人工智能强大的计算能力和先进的算法正在各种不同的应用场景中发散。你也许认为机器的智能已经到了很高的水平，但其实这种论断言过其实了。对于出色的人类的智能而言，围棋问题答案是有限的，因此就相对简单，而像交通、金融、医疗这些通常解决方案多样的问题，才是真正棘手的问题。

关于人工智能，我们应该担心什么？

人工智能系统看上去很智能，但实际上并非如此。

首先，人工智能系统并不能真正理解他正在做的事情。例如，将系统中一些词句替换成发音相近但语义相反的其他词汇，只要系统能够正常运转，它并不能从语义理解层面进行察觉异样。

其次，人工智能系统并不知道做出搜索，或提供数据之后会产生什么样的结果。人工智能如果出错则会带来很严重的后果，这是人们需要考虑的问题。搜索引擎，你在输入关键词后系统会返还给你各种各样的搜索结果。但对于医学的诊断，你必须提供有效可行的治疗方案，如果医学诊断出错的话，它就有可能使人致命；在金融的世界里，错误的决策会引发巨额的经济损失；在交通问题上，错误的决策也会招致不必要的灾祸。

第三，人工智能可能会让一些岗位消失，但同时也会产生新的岗位。我们知道，几百年前的工业革命让一部分人失去了工作，与此同时也有更多新岗位的出现，但人们必然需要花时间来学习和适应这个转变。

最后，就是人工智能的使用问题。我并不觉得机器人以后会统治人类，虽然这种情景经常出现在电影、小说等艺术创作中，因此这个话题时常被大家提起。我认为问题并不在人工智能技术本身的危险与否，而在于这些技术会不会被心术不正的人错误地使用。我们需要将技术用在正确的场景和合适的人身上，真正用技术赋能世界。

人工智能目前有哪些重要的技术

接下来，我与大家分享一下人工智能研究的几个技术方向。

第一，机器学习。像聚类、分类、预测、维数缩减、优化等都是值得研究的方向。只要有大的数据集、好的算法和并行分布式计算，就能取得不错的效果。

第二，规划。如何找出一个问题的最佳解决方案？我们可以基于搜索技术，来助力人工智能的策略和战术，找到解决问题的捷径。这也是机器学习的一个方面。

第三，人机交互，这一直是一个重要的话题。人机交互指的不仅是让机器独立地工作，还包括如何更有效地促进人机互动。研究方向包括如何让机器主动向人类学习，众包来解决复杂问题，以及经济学和博弈论模型等。

机器学习存在的挑战

上图，我以清单的形式和大家分享了如今机器学习的挑战，我觉得这个领域还有很多工作可以来做。

不确定性问题。深度学习虽然发展迅速，但仍有许多问题亟待解决。尤其是还有黑盒子问题尚未完全解决，大家只关注输入和输出，最终得出结果，中间的过程还有很多不确定性。但是在解决医疗等问题，这种不确定如果很高的话就无法起到参考价值。
不可解释问题。我们需要一套系统能够解释机器决策和行为背后的原因。
深度理解机器学习、了解机器学习中的每一个环节。目前，我们对数据集的依赖还很强，而无法利用少量的数据做类比、推理等其他思维过程。
人工智能系统需能够制定和规划长期目标，并主动搜集相关数据进行分析。
人工智能系统需要实现实时及时的表现和反馈。我们现在只能期望结果尽可能的快。
对于一些没有预料到的场景，如何保证系统的鲁棒性并解决问题，现在也是一个挑战。
系统面临对手攻击如何保证鲁棒性的问题。
数据共享问题。对于机器学习来说，数据量的大小和数据的质量十分重要。如果个人和机构能够对数据进行共享，将不同的数据放在一起并整合，这样就能取得更好的效果。
隐私保护问题。我相信这也是机器学习面临的一个重要挑战，这虽然是另外一个角度，但与各位的工作都息息相关。

个性化与机器学习

我们看到最近几年来，越来越多的硅谷公司提供个性化服务的，我也相信这是未来的趋势所在。但要提供这些服务，我们需要从消费者那里获得大量数据，然后让计算机去学习，去做决定。

虽说有正在试图提供个性化服务的公司有上百家之多，但其实目前并没有任何一家脱颖而出。为什么会出现这种情况呢？我们想象一下下面这种场景：

导师（老板）：我们需要一个系统来提供个性化的智能服务，取代传统的服务。
学生们：好的，那我会使用这些这些（@#￥%…&*）机器的算法，同时需要这么多的用户数据等来提供个性化的服务。如果要这样做的话，我们需要建立更多的架构，需要更多的服务器，需要让这些服务器服务更多的模型。
导师：好，为了提升我们的服务，我们还需要搭建一套人工智能系统服务，我们还需要服务更多的用户。（提出了更多的要求……）

最后，随着公司规模逐渐扩大，一个原本服务20名用户的公司为一万人、甚至是几百万的用户提供服务，随着用户规模的扩大，个性化服务的质量则会逐步下降。作为公司的决策者需要考虑诸多因素，在控制成本的同时提供更好的服务。而这些矛盾在短时间内很难解决。

在机器学习和统计学的研究上，我们需要有时间预算的概念。例如你搜索了一个关键词，你期待系统得在几秒钟之内迅速返还答案。而目前个性化的服务系统，可能同时有几千个模型在运行，这个系统十分复杂。当你获得更多的数据，或是加载更多的模型时，为了留住用户它的速度必须变快，必须越来越精准，但这个要求与现实是相反的。实际上因为数据量越来越大，错误率也会增大，数据的处理速度反而会越来越慢。因此，正确率和时间预算有时很难平衡。随着客户的增加，用户的不同需求也会越来越多。

人工智能系统的鲁棒性十分重要。几千年前人类开始建造桥梁和房屋，它们也促进了经济了发展。随着时间的推移，几百年过去了，有许多桥梁和建筑物因为各种自然灾害等原因倒塌了。这对于数据科学来说也是一样的，我们不仅需要保证系统当下的质量，还要保证很长一段时间系统的稳定性。我们需要专业的工程师来解决这些问题，但目前我们的能力还不够。

伯克利的RISELab实验室最新研究：Ray

最后，我想和大家介绍一下我们实验室的研究，我们正在研究的都是一些非常困难的问题。现在领域内还没有通识的基础理论，但是我做的都离不开统计学、计算几何、如何去提升计算的精确度和效率、如何优化等等。如果你对我们的研究也感兴趣，可以访问我们的网站来了解我们的研究，我们的研究进展及论文都有在网站中分享。

网站网址：https://rise.cs.berkeley.edu/

（请点击阅读原文，或直接将网址复制至浏览器中打开即可查看）

现在，伯克利的RISELab实验室正在进行项目——Ray。

这个项目始于今年一月，我和我们的学生正在研究这个项目，他们都是机器学习领域优秀的研究者。我们实验室前称是AMPLab，相信大家都不陌生。我们一起在这个实验室开发了很多产品，最有名的就是Spark，还有CoCoA等其它一些和统计学等相关的项目。这些项目都很成功，但也存在一些局限，但对于数据分析来说，这已经是全世界非常领先的平台了。如果你在寻找一个开放性的免费平台，而不是盈利公司所开发控制的，那这些平台就是你理想的选择。

现在我们的实验室名为RISELab，研究方向由用批数据进行进阶分析，转移到由实时数据进行实时决策上来，这也与上面所提及的人工智能研究领域正面临的挑战相统一。

新兴的人工智能应用方向有很多，包括自动驾驶汽车，围棋机器人，对话式人工智能助理等。但是这些平台只是垂直的解决一些特定问题。因此，这些激励了我们想构建一个平台，让人们可以在这些平台上轻松构建自己的应用的目标，因此我们的研究需要保证平台具有一定的灵活性，平台需提供研究，规划，学习等能力，并且实现实时控制。

这里展示的是hadoop及Spark技术展示图，和与Ray架构的对比。Ray是一种并行流程。新的架构就好象一个数据流的图形，而非线性的，当我们想要进行测试时，不需要等之前的任务完成之后再开始。它在非常复杂的环境下可以同时进行，能够同时完成多个不同的任务。

这个Ray的特点是递延式任务，有些任务完成得非常快，而有些任务则比较慢，因此它们所花费的时间是不一样的，它是异构任务，还有低延迟任务、透明容错、数据共享而不序列化等一些特点，这也Ray的特点。

上图是Ray的系统架构。我们现在正在这种构建架构，支持很多不同的调度，有局域的调度，还有全局调度。我们的网站上有关于这个框架的详细论文信息。

以增强学习为例，也就是AlphaGo所使用的技术，在这个系统中，他们在每一个数据点都是无标签的。而系统的每一次行动，都是无监督无反馈的。你必须要进行无数遍重复，失败很多遍，才能找到最好的行动。

最后给大家展示一下我们的一个实验案例。我们让模拟人偶学会跑步。假设他有四十块肌肉，我们需要调动这四十个模块协调起来，让人偶能够成功的跑向终点。计算机很难同时控制这四十块肌肉的，传统电影和动画制作时大家都无法解决这个问题，他们的做法是在真人的身上贴上标识，让真人模拟动画物体（如动物）的运动。我们尝试了很多种不同的算法控制它的跑步动作和方向，才制成了你们看到的动画效果。

大家可以看到这个问题其实很难，我们要确保人偶不摔在地上，它的过程就像一个小孩在学走路一样。可以看到当迭代达到100次和500次时效果即可取得很大的进步，而AlphaGo的迭代达到了成百上千万次。这个过程中我们也做了几百万次实验。在我们的平台上，你也可以像这样实践自己的想法。

最后，简单的总结一下今天的内容。

机器学习或者说人工智能已经是现在这个时代最热门的话题了，越来越多的科学家和公司都在加大投入对人工智能的研究。人工智能确实能够解决某些问题，但目前人工智能技术还不够强大，远没有成为一个理论全备的学科。但这不是说我们要停下来，而是说我们要继续加强对人工智能的研究。但你不能期望AI可以解决所有的问题——这是非常疯狂的想法，因为现在并没有在发生。我们应该着眼于正在进行的研究、正在创造价值的理论。人工智能会给人类带来有用的价值，而不是焦虑。

感谢大家的聆听！