双创周演讲实录丨马少平：人工智能能做什么

2017 年 9 月 19 日 中国人工智能学会

由2017全国双创周组委会指导，国家发展和改革委员会与中国科学技术协会联合主办，中国人工智能学会承办的2017年国家双创周与人工智能科技相关的重要活动：“智创未来——人工智能与新生活创新创业论坛”于9月19日下午在中关村国家自主创新示范区成功举办。

以下是马少平老师的演讲实录：

马少平中国人工智能学会副理事长，清华大学计算机系教授，博士生导师

马少平：下面我做一个报告，因为现在人工智能非常火热，由于从去年开始一方面正好是人工智能六十周年，另一方面ALPHAGO火上浇油。在这样一个形势下，对人工智能的评论也是各种各样，有的把人工智能说到天上去了，也有的人把它扁得一文不值。那么人工智能究竟能做什么？就是有了这样一个思考。

今天给大家交流一下。因为这个内容还是比较多的，在其他的场合我曾经是讲了两个小时，今天可能大概就二十分钟，只能把我的中心思想跟大家在这儿交流一下。首先我们回顾一下人工智能历史。人工智能当然怎么划分呢？有各种各样的划分，我简单的把它划分为四个阶段，第一个阶段主要是说在1956年前后提出人工智能，在这个阶段可以把它叫做前期阶段，这个阶段一个中心思想就是试图解决一些通用的求解问题。当时因为实现机器智能很早就是人类的愿望，但是以前苦于没有合适的工具。那么到了56年的时候正好计算机已经出现了十年了，所以人们就觉得在这样一个工具上我们可以做很好的工作。所以当时把这件事想得比较乐观。所以当时一方面就是做GPS（通用问题求解），另外用机器来做定理证明。另外就是做游戏，那时候就有很多下棋的，那时候下象棋下围棋还不行，但是下西洋跳棋，黑白棋什么的也做得很好。当时也有做翻译的，当时也是非常乐观的，说我造一个庞大的电子词典就可以解决翻译问题了。但是由于盲目的乐观导致了失败。

在这个过程中人们来反思这件事情。为什么会失败呢？就认识到知识的重要性。专家之所以能够解决一些问题，是因为他有领域方面的知识。那么有了这些知识才能够解决。这样就想能不能把专家的知识给总结出来，然后让计算机继续去使用。这样的情况下就提出了专家系统、知识工程。这样就进入了第二个阶段，大概是属于知识处理时代。这个时代主要是以总结人类的知识，通过推理的方式像专家那样来工作。

但是在这个做的过程中也遇到了一些问题。就是说虽然我们有知识可能确实可以解决一些问题，但是怎么让计算机能够有这个知识？是一件非常难的事情。最初主要是靠人去手工的整理，虽然也提出了机器学习方法，但是当时的方法很不成熟。但是整理是很困难的，一方面跟专家交流很难，以前我就做过专家系统，跟那个领域的专家去交流其实不同领域是很难对上话的，要想交流事先得学习很多对方那个领域的知识才行。所以整理知识是一件非常痛苦的事情。

另外很多知识也是很难整理出来的，有很多东西大家可能有体会，只可意会不可言传。让他去做他可以做，但是说到为什么这就比较难了。所以这个时候就遇到了一个知识获取的瓶颈问题。这样就进入到第四个阶段，特征处理时代。那么这个时代主要的想法就是说，知识不太好整理我们能不能让计算机自动来工作？这个时候主要以统计学习方法为主，它的输入，处理的对象是特征。就是说你把描述这个问题的特征我写出程序来，让计算机自动去抽取，然后用统计学习的办法来自动对问题进行分类。所以这个时候我们就是属于一个特征处理的时代。

特征处理也解决了很多问题，在这个阶段当中以特征处理为代表这样一种学习方法可以做很多事情。但是在这个过程中，其实怎么提取特征也是遇到了问题。就是说很多这个特征既要让计算机能够去抽取，同时又能把问题的特征给表达出来。如果说我们有些特征可能能说出来，比如一个汉字到底是哪些东西，横竖撇捺，一个部件的组成就是汉字的特征。但是计算机很难把这些总结出来。就说怎么找到一种既能够表达这个问题特点的这么一个特征，同时让计算机能够实现计算机抽取的特征也是一个比较难的问题。

比如我现在说话，怎么把这个话变成文字？到底是哪些特征？说我这句话说的是什么呢？其实我们也很难说出来。所以这个也是遇到了问题。这样的话我们现在这个时代，把它叫做数据处理时代，这个地方一个典型代表就是深度学习，它是直接从数据中来进行的，它是一种叫做自动抽取特征，从某些方面来说。我们把原始的数据提供给机器，然后计算机经过一些深度学习方法或者其它方法，它实现一些特征的自动抽取。这样的话越过了抽取特征这样一个内容。当然这里面深度学习，一个是训练算法一个是大数据，这些起到了一个很关键的作用。那么在四个阶段当中就是说，人工智能都取得了一些好的成果。那么有哪些比较典型的应用呢？

我们看现在就是说，计算机做得最好的几个方面，这没有什么先后顺序。比如说语音识别、图像识别、机器翻译、机器博弈，这几个方面相对来说做的比较好，语音识别现在如果是在安静的环境下，说的话还可以，虽然不一定很标准，基本上还可以的情况下识别率已经很高了。比如说汉字识别我们手机上都带手写的输入，这个识别率也都很高。比如还有机械翻译，虽然现在可能还不尽如人意，但是我们人们看也能看个大概。机器博弈就是说ALPHAGO战胜李世石又战胜柯洁，这些方面都做的比较好。

这些方面我们就考虑说，为什么这些方面做得好，而有些方面做得不好？他们共同特点是什么？我们就想从这个角度来说，来讨论一下人工智能能做什么？其实我不好说具体的方向。我们就说讨论一下哪些东西做的好？我们有哪些共同特点？那些做得不好的我们有那些特点？我们看看究竟能做什么。但是实际上我说的人工智能能做什么？它是一个发展的。早期有些事情做不了。比如说机器博弈，就是下围棋，在去年之前应该是一直做得不好。ALPHAGO出现之前一直做得不好。现在是做得好了。计算机能做什么？也是一步一步发展出来的。但就是这样发展的过程我们也讨论一下，到底是说从哪个角度来解决的？

那么这是说现在做得好的几个方面。我下边再举几个不太做得好的。当然了现在很多人也讨论说计算机不能做什么？大概八十年代的时候就专门有一本书，《计算机不能做什么》，副标题就叫“人工智能的极限”。讨论了很多计算机不能做的。但是这里面提出概念，让计算机提出一个概念来，一个新的人都没提出来的概念。这件事情现在应该是做不到的，将来能不能做到我也觉得不是太乐观。还有创建一个科学体系，主要是这些事情一般的人也做不了，只是少数个别才能做。所以这些事情都是很难的。将来能不能做也都很难说。所以这些我们先不探讨，这些东西就是太难了也太抽象了。我们探讨一些具体点儿的。具体点儿的是什么？就是说我们人可以做得很好，但是机器还不行，到底是哪些？我们探讨这样的一些问题。我在这儿举几个例子，漫画识别等等。

比如这个，以前我在朋友圈里发的，本来就是无聊消遣一下。那天我下了一个订单，网上订了一个东西，结果他说你别着急，一杯咖啡的功夫就给你送来了。后来我们楼下正好有卖咖啡的，正好也是累了就买了杯咖啡，下了单说一杯咖啡后就有人与我联系，害得我赶紧买了咖啡。大家一看就有点笑的成分，不是说真的我喝一杯咖啡，我不喝咖啡就没人跟我联系，并不是这个意思。但是计算机能够理解吗？我估计现在这就属于幽默，这种事情计算机还理解不了，或者说有个别情况下能理解，但是做得很不好。但是我们人确实是很容易就理解了。

再看这个，这是前一阵网上广泛流传的一个话。这只是一个大虾不可笑，写个齐白石也不可笑，但是加在一起就可笑了。大家一看齐白石是画虾的高手。那么这就是一个幽默。那么这件事情我们人很容易，大部分人一看就会会心一笑，计算机做不到，而且我也不知道该往哪方面努力去做。这是一个例子。

还有一个例子比如说我把它叫做联想力，但是我不知道到底应该叫什么。比如这是一个少女穿着婚纱，一眼看上去是这个。但是如果仔细看看。所以这就是说如果你第一眼就看到是一个少女的样子的话，我提醒你一下是一对情侣，那你一看马上就知道，还真是一对情侣。类似的还有，这是猫还是狗还是什么？可能屏幕上看不太清楚。可能这是一家三口。这就是说基本上第一眼没看出来，但是经过提醒以后马上就知道了。但是这个能力计算机也不行，计算机很难实现。说它识别错了我提醒它一下，它马上就知道原来是这个。这个能力我觉得计算机现在还不行。

还有一个就是漫画识别。这是个陈佩斯的漫画。如果你认识陈佩斯这个人，即便没看过他的漫画也是一眼就能认出来。但是计算机处理的角度这方面虽然也有人研究，但是水平还比较低。如果说只给计算机看正常的陈佩斯的照片，然后拿出一个漫画来让它看我估计现在也不太行，我问过别人，他们说有人研究过类似的问题，但是正确率非常低。而我们人即便你从来没看过陈佩斯的漫画，但只要认识陈佩斯这个人一眼就能认出来。

这些都是我们人很容易的。其实还有一类就是跟常识有关的。比如说举个例子，说爸爸举不动他的儿子，后面这个他是指谁？我们一看就知道肯定是指爸爸，我们人这个能力很强，这其实是靠常识，信息中没有任何信息。还有一个例子夏天能穿多少穿多少，这是什么意思？夏天可以穿得很少太热了！冬天能穿多少穿多少。除了一个夏天一个冬天，后面的话完全一样。但是表达的意思完全不一样。这就是常识在起作用。那么常识处理当中人工智能也是弱项。

为什么说语音识别下围棋这种非常难的问题都行，但是这个就不行呢？我们就总结了一下。我再简单说一下，能做的就是说的清的。什么叫说的清的呢？一会儿我再说。难的就是说不清的。我们人工智能的发展实际上就是说把一些过去说不清的事情让它给说的清了，这人工智能就一点点发展过来了。

当然了我们下面再说怎么叫说的清说不清。那么这里面说人工智能求解什么呢？当然这也加了一个引号，这个定义不一定是说形式化的定义。那么从这个角度我就提出来这样一个想法，大家可以讨论。什么是人工智能呢？实际上就是一个定义加一个算法。定义就是把这个问题先描述清楚了。再加上一个算法，这算法可以是深度学习等等，其实人工智能现在做的就是这么点事情。

把这个问题给它说清楚了，再选择一个合适的算法我们就可以去做。当然这个定义有各种各样的，比如说可以是形式化的定义，可以是特征的定义，可以是假设的定义，这是我们举例的。比如说识别一个猫，到底什么是猫呢？我到网上搜了一下，这个大概是百度百科给的定义。这是猫的定义，但是我们人识别猫不是这么识别的，让计算机识别也是不行的。这件事情很难的。现在怎么办呢？要识别猫，我们就说得给说清楚了。靠这个是说清楚了，但是计算机识别不了。现在怎么办呢？靠图，给一万张图，就说我不知道什么是猫，我说不出来，说这些就是猫。再加上一个深度学习我就可以把这个识别猫做得很好了。

当然你给出猫来，给出狗来，给出兔子来都给出图片来，那么计算机就会做得非常好。现在反过来说我们前边那几个做的好的，其实都有这个特点。比如语音识别我现在说的这么句话对应的汉字是什么？我们人可以说得非常清楚。虽然它的特征是什么我们不知道，但是现在说句话它的文本是什么我可以说得清楚。只要我把这个东西都弄好了就行。都有这样的特点。

我再接着说说刚才那个。汉字识别也是这样，这个汉字到底是对应哪个？就是你手写的一个汉字是哪个？对应的汉字是哪个？我找出很多人去写，然后告诉他这个就是清华的清，这个就是清华的华。我找很多字把这些都告诉机器，机器就可以学了。我通过这种方式去定义它，定义好了就可以了。

这就是说通过图来定义。这是一个专家系统R1的例子。它实际上就是说用了一千多条规则把如何配制计算机这件事情给说清楚了。说清楚了它就是用规则，就是说什么叫计算机配置，什么情况下该怎么配置？它用一千多个规则说清楚了。说清楚再加上一些以搜索为基础的推理手段他就可以做这件事情。当时在八十年代这是一个非常成功的系统，就是说过去也有这样的系统。

再说这个深蓝。IBM的深蓝在1997年在国际象棋比赛中战胜了卡斯帕罗夫，那么他是怎么来表述这个事情的呢？一个是知识加搜索。知识是什么呢？知识用于对局面的评估。他聘请了很多的国际象棋大师对各种各样的棋局，说这个棋局到底对我有利还是没利？写出很多这样的内容。通过国际象棋的知识，到底是说什么局面下对我有利，什么局面下对对方有利。这件事情通过总结大师的知识来把它描述清楚了。描述清楚了再加上一个搜索技术。那么通过这样的技术使得比较有效的利用已有的搜索结果，极大的提高了效率。这样的话就是说把这个事情就可以做得非常好了。

因为时间关系我就不多说了。这里面我说一句重要的就是说，我问过做深蓝的那个老师，他说如果不用ALPHAGO剪枝，每下一步棋需要十七年时间，但用剪枝之后只要一两分钟就可以走。所以这个算法也很重要。由于时间我就不多说了。ALPHAGO为什么能取胜呢？其实它在这里面主要就是解决评估问题。用国际象棋的办法套用到围棋上不行，靠专家总结知识不行。然后它怎么解决的呢？靠深度学习来解决局面的评估问题，完全是靠搜索的办法来解决。单独的搜索效率又太低，还要靠深度学习来解决搜索量大的问题。一方面把搜索宽度给它变窄了，另外一方面把搜索的深度变浅了，这样搜索效率就高了。

当然了在这里面我们还可以说说怎么来指导工作？我们知道描述清楚就行，那怎么指导工作呢？这里面就是想办法，如果这个问题还没有解决，我想办法看能不能把它说清楚，再找一个合适的方法来做。另外单一的方法，像ALPHAGO它一方面是有搜索，这也是很古老的东西并不是谷歌发明的。深度学习也不是它发明的，然后它把这两个有机结合在一起就解决了这样一个搜索的问题。

最后我以一个藏头诗作为结束。这不是我写的，这是谁写的呢？计算机写的。这个是我们实验室的一个组做的一个古诗的写作系统，可以写藏头诗，只要给四个字他就给你写出一个藏头诗来。但是也可以写非藏头诗，七绝七律都可以写。那么这个地方我为什么要以它作为结束呢？它也是从描述，靠规则来写。但是这么大量的东西，说这个诗到底怎么来弄呢？也是收集了很多的诗。需要押韵然后怎么怎么做，这样就是一首诗。把这个东西弄出来很快一两秒钟就可以写一首诗。而且大部分看的还可以。那么这个就是说也是规则加深度学习这样的一种方法很好的结合。

最后总结一下就是说，我的中心思想，怎么把这个思想结合到具体工作当中去是我们要做的事情。当然这里面定义就想办法可以用规则、可以用数据也可以用假设等等。由于时间关系有很多例子我就不举了。我今天就讲到这里，谢谢大家。

CAAI原创丨作者马少平

未经授权严禁转载及翻译

如需转载合作请向学会或本人申请

转发请注明转自中国人工智能学会