10月12日,第七届中国智能产业高峰论坛在佛山开幕,在第一天的主论坛上,中国人工智能学会认识系统与信息处理专业委员会主任,清华大学教授孙富春发表了主题为《人工智能与产业腾飞》的精彩演讲。
孙富春教授深入浅出地回顾了人工智能的前世今生,并从产业的角度介绍了人工智能与现有产业如何深度融合,实现产业链条的形成以及制造业的腾飞。在报告中还为与会嘉宾展示了其团队的科研课题和科研成果,并对人工智能的未来进行了思考和畅想。他提出,我们应构筑我国人工智能发展的先发优势,加速产业建设,加快迈向“中国制造2025”。
中国人工智能学会认知系统与信息处理专业委员会主任、
清华大学教授孙富春
以下是孙富春教授的演讲实录:
孙富春:尊敬的各位嘉宾、各位同仁、大家上午好!我首先非常感谢学会给我跟大家交流的机会,我汇报的题目是人工智能与产业腾飞。
人工智能最早的时候,在古代哲学里是一个很重要的问题。最早出现在2000多年前的诸子百家,荀子在《正名》篇里面第一次描述了什么是智能,我们来看一看。它是这么讲的,“知之在人者谓之知。知有所合谓之智”,什么意思呢?人天生就有一种认知的能力,把这种认知能力在社会实践中就能产生智慧。第二段话就是“能之在人者谓之能”,就是人还有一种能力,就是求变和创新的能力,把这种创新能力在社会实践中就能产生才能。那么,什么是智能呢?就是将人的认知能力用于变革和创新世界就是智能。
我们再看看Webster字典里面是怎么说的,它说智能是学习和求解问题的能力,它是解决新问题、理性行动与像人一样行动的能力。我们都知道1956年在麦卡锡在美国达特茅斯市的研讨会上宣布了人工智能这门新的学科。那么,在这个会上人工智能是怎么定义的呢?它说人工智能是制造智能机器的科学与工程,特别是智能计算机程序,它与使用计算机、理解人与智能的内生动力有关,但智能并不局限于生物学观察的方法。
谈到人工智能我们不能不提到图灵,图灵在1950年在《计算机能思维吗》提出了著名的图灵测试,就是人和机器背靠背,让人提问题,机器回答,如果有30%的机器回答让人感觉到是像人回答的,我们就说这个机器具有智能,他建立了人工智能的思想基础。我们经常讲是计算技术推动了人工智能的发展,用哪些计算呢?首先是云片计算机,是它主要推动了现代人工智能的发展。还有哪些计算呢?网络计算、互联网技术推动了群体智能的发展。还有生物计算,以生物计算主导的人工智能,一定是未来人工智能发展的重要方向。我觉得现有的智能是沿着这三条线索分别在发展,同时部分有交叉,但是以独立的发展为主。
我们过去讲人工智能有两大范式,一个是符号主义,就是利用数学里的数理逻辑,通常称它为知识驱动的人工智能。第二部分我们讲是联接主义,就是神经元,一直到现在的深度学习,称为数据驱动的人工智能。人工智能的第三范式是什么呢?我们认为是神经机制驱动的人工智能,包括今天李院士讲到的深度学习,最早是1958年,人们对猫视觉皮层的发现而建立起来了。今天的超限学习机,包括强化学习都是基于脑科学和生物学的发现,他们就是基于神经机制驱动的脑认知。
人工智能有很多的领域,我们觉得这段时间发展比较多的应该是机器学习和机器感知,机器感知包括语音处理技术、图象识别技术等等。目前人工智能已经应用在自然语言处理、知识表达、自动推理、机器学习、计算机视觉和机器人。我们经常谈到三起两落,这里面我想提出一个观点,就是2000年以后,即深度学习提出以后,它是通过数据自主的提取特征,我们说它叫智能,之前的人工智能发展我们认为叫人工,即深度学习之前只有人工,深度学习之后有了智能。大家说人工智能将来对社会发展有哪些影响呢?,机器犯错了谁担责呢?社会结构改变了,机器伴侣2016年美国人做出来了,这里我们提出来一个很重要的问题?就是人工智能是不是改变世界的第三个苹果?我们讲第一个苹果是亚当和夏娃偷吃的那个苹果,第二个苹果就是砸在牛顿头上的苹果,牛顿的创造不光是万有引力,还包括微积分,我们现在研究问题都通过数学的办法、科学的办法去做,他改变了世界。第三个苹果,是图灵吃掉了的毒苹果,它改变了社会,从此我们社会进入了人和机器之间共存的社会,我们过去人和机器之间的关系是单向的关系,机器服从人,人工智能时代人和机器之间应该是一个双向的关系,机器有感知和决策能力,有认知能力,可以跟我们一起工作,协同完成某项任务,我们今天讲到的人机混和智能就属于这个方面。最近有一本书,是王飞跃老师的学生王晓翻译的,我还为该书写了一个序,就讲到了社会机器问题,这是一个新的社会生态,人和机器共存的社会。
我们再谈深度学习,深度学习是1958年约翰霍普金斯大学的David Hubel和Torsten Wiesel教授一个重要的发现,他们发现了人的视觉信息处理是分级的,这个发现大大促进了人工智能的发展。人的视觉处理分为V1到V4区,V1是一些简单细胞,复杂细胞和超复杂细胞进行线条边缘的提取,到V2就形成了部件,再经过第三区形成轮廓,最后形成物体的表征和识别。有人会问为什么深度学习那么多层呢?是因为不同背景和图像分辨率下,不同人完成这几个功能,需要的层数不同,比如提取边缘,有的人用20层,有的人用40层。为了得到更好的表达和识别能力,层数有时很多,汤晓鸥团队在2016年Imagenet比赛中,用了1207层。
我们说深度学习是一个端到端的学习,它跟我们传统的模式识别有什么不同呢?就是自动选择特征。深度学习的产品现在应用在移动终端里面,像苹果的Siri,微软的智能安全工作空间。问一下什么是“深度学习”,只要同手机说一下,SIRI马上会告诉你强化学习的意思。强化学习刚才我们李院士讲的比较多,我这里就不再多说了。
我们看到阿尔法狗把所有围棋高手都打败了,那么大家会产生一个映像,人工智能将来不得了。但我认为以深度学习为代表的人工智能存在这么一些缺陷,第一个是端到端黑盒子,网络中存在大量的复杂非线性变换和大规模神经元连接,少量的随机扰动就会导致最后结果的剧烈变化,其行为和表现难以理解和合理解释,很难对模型的行为进行有效分析,无法找到原因并进行修正。比如美国人用深度学习,结果把一个黑人识别成一个猩猩,这种笑话是不少的。缺少可解释使得现有人工智能技术很难应用于医学、国防等可解释性异常重要的领域。第二就是依赖大数据,没有数据怎么办?能耗大,计算量大,阿尔法狗用了128块GPU,我不知道128块GPU要多少钱,我感觉应该是6个亿到8个亿。模态单一,阿尔法狗只能下围棋,不能下象棋,哪怕把规则改一下他就适应不了。其实智能里面还有一个非常重要的东西,就是人通过学习会产生知识的涌现,这个涌现具体体现在哪里呢?我们这里有很多的博士生导师,比如一个博士生两年半要开题,四年要毕业,怎么现在还没有发表文章?有人说你别着急,半年时间全出来了,这就是积累到一定的程度就会产生一种知识的升华和涌现,这是阿尔法狗所没有的。
我们提出这样一个观点,我们认为在深度学习的之前的模式识别是算法加特征,这些特征是人自己选定的,比如说颜色特征,纹理特征,几何特征等等,数据加进来干什么?数据加进来就是供自动提取特征。大家都知道神经网络学习,如果隐层单元的数目大于输入维度,问题所需要求解的最优参数就转化为不适定问题。怎么办?增加数据,把这个问题解决了。小数据行吗?通过正则化方法和对抗式网络得到一定程度解决。我们再看,现在的深度学习只用到了算法和数据,其实人在观察事物的过程里面还用了一个很重要的东西,就是模式。深度学习这两年有了很大的进展,一个重要的因素就是视觉、听觉、触觉,脑电都可以用二元矩阵表示,深度学习可以推广到这些领域。人在观测事物时,观测模式不一样,白天大多用到视觉,操作物体用触觉,有时把这几个感知信息融合在一起。好,我们再看看行为。行为是人工智能一个非常重要的部分,但是现在的深度学习没有做到这一点。我们再向上看,我们研究了特征,我们需要什么?概念,这就是可解释性的问题。此外,我们还需要知识和模型。我们看看现在的深度学习仅仅做到了我画的这一小块,而且还不够完善。
刚才强调一个很重要的问题,需要很多数据,如果没那么多怎么办?就是小样本表示学习是目前非常重要的一个风向,怎么做呢?我需要大量的数据,这实际上是一个正则化的问题,我们通过正则化,通过流形学习可以改变这个问题。还有一个问题很重要,就是如何产生数据。学自动化的人都知道,模型可以产生数据,如果将模型的产生式方法和机器学习的判别式方法结合,有望解决数据的产生问题。这就是今天强调的对抗式学习,它是把产生式方法和鉴别式方法结合在一起,通过竞争产生新数据,这是目前小样本学习里面非常重要的一个方向。
符号概念,关联网络的概念这是今年谷歌Deepmind公司提出来的,它直接通过这样一个网络,通过概念的组合来形成从感知到概念的转化。这种新的符号-概念关联网络,实际上打破了纯粹模拟人脑神经网络生物构造的计算方式,从模拟人的“组合性”思想中另辟蹊径,从而取得了对抽象概念这一特定问题的进展。
图像理解最近大家做的比较多,这是我一个博士生在做的工作,从任意给定的图像,可以学习图像的自然语义理解,实现了从单一目标的概念,到整体句子结构,最终实现图像理解的过程,这是一个对图像更深层次的理解过程。我们可喜的看到在今年温哥华的IROS会上面,李飞飞也报告了怎样从感知形成理解,这就是刚才讲到的从特征到概念。
生物计算怎么样?存储量大、运算快,能耗特别低,DNA计算是普通电脑的十亿分之一;存贮量大,1立方米的DNA溶液,可以存贮1万亿亿的二进制数据。运算快,十几个小时的DNA计算,相当于所有电脑问世以来的总运算量。我们再看看量子计算机,这个是今年的中国科学技术大学发布的量子计算机原形样机,一台操纵50个微观粒子的量子计算机,对特定问题的处理能力可超过目前最快的“神威·太湖之光”超级计算机。加拿大神经外科医生Wilder Penfield的实验结果说明大脑对感知数据的记忆是全息的(即包含我们生活的所有细节),而并不是单纯的一幅图像、一种声音或一种感觉,即使是对通常的事件。我认为未来的人工智能一定是这样一个图谱,从下面的硅云计算到生物计算(或者叫碳计算),最后到神经机制驱动下的强人工智能。这里我提出的观念可能跟许多人不一致,可以讨论。
人工智能的产业在中国现在是不断的兴起和发展,中国人工智能产业的规模2016年达到了100亿元,增长率达到了43.3%,2019年我们国家达到了344亿人民币。中国跟美国的差距我们看一下,从人工智能的企业数来看,我们大概有两年的差距,但是从投融资角度来讲我们差距还比较大,2017年美国是978亿,中国是635亿。我们再看看中美在人工智能各个领域,像自然语言理解、机器学习应用、计算机视觉和图像、技术平台,无人机等等,这方面我们跟美国还是有一定差距,尤其在自然语言理解、机器学习这方面我们差距比较大,我们国家在2016年的专利增长非常快,人工智能目前用在哪些地方呢?医疗、汽车、消费电子、电商、安防等等。
这是一个未来十年我们可以展望的,从现阶段的大数据、感知、理解、机器人、自动驾驶里面,近期的主要是互联网的应用、电商、商业流程的自动化、摄像头、视觉语音语言手势的应用、工业机器人等,未来3—5年可以看到辅助自动驾驶、商业机器人、VR和AR技术,分布式传感器技术将在中国的产业方面有大的发展,包括人工智能+计算构架、算法框架加传感平台;未来5—10年,自然语言理解成为我们万能的助手,甚至请一个外国人讲课,你们听到的是按他的语调的中国话。我们可以展望的未来十年可以达到全天候、全工况的无人驾驶。
我们今天这个报告是在广东做的,这里面有很多广州、佛山的嘉宾们,你们一定特别关心自己家乡的产业。最近香港、广州、佛山、澳门和深圳等城市提出大湾区的概念,实现湾区经济。我们可以看到像广州北部、佛山、中山这边主要是技术密集的产业带,以装备制造业和农业为主;从东岸来看,广州东部、中部、深圳、东莞地区主要是新兴产业,高技术产业发展非常强大。我们再看看沿岸这块,主要是惠州、珠海和江门这一块主要是先进制造业和现代服务业。现在实现湾区的概念就是要实现湾区的融合,东岸、西岸、沿岸的融合来打造智能制造。人工智能在各个行业处于爆发状态,像芯片、智能机器人,智能社交、智能交互和智能教育,下面我们来看一看。
人工智能芯片主要包括GPU、PGA等等,人工智能时代的“晶体管”横空出世。英伟达是深度学习芯片的龙头跨国公司,我们沈总在这儿,英伟达推出深度学习芯片,Tesla P100能够实现数百CPU服务器节点性能,数据处理速度是NVIDIA 此前Maxwell架构显卡系列的12倍。我们再看看华为,给咱们中国人长脸的,最近推出的麒麟970,我不知道970具体什么含义,但是念起来特别有气势,咱们自己的芯片比苹果的还好。这是今年因特尔公司推出的Intel Myriad2 视觉处理芯片,该微型芯片包含AI加速器,它的效益功率比也超越了当时的所有同行。使用的深度神经网络(DNN),比如跟踪或监控摄像机。功率效率,或每瓦特可以获得的性能数量获得了很大的提升。
机器人是人工智能产业的一个非常重要的支柱,未来十年里要大力发展机器人,它包括了执行、装置、控制、感知系统等等,其实我今年参加了《国家机器人发展报告》的撰写,明显感觉到我们国家在一些传统弱项方面进步仍然不是很大,包括像减速器、高密度高精度的电机、驱动系统,还包括一些分布式传感器。这是我国研发的仿人机器人,这是京东做的物流机器人。我们国家现在已经形成了门类比较齐全的机器人研发基地,从东北一直到我们广州。
下面介绍一下我的课题组做了什么?认知传感。这是我们课题组开发的数据手套,可以采集操作过程中接触点的力,包括关节弯曲的角度,我们甚至像把小提琴手指法和接触力的变化都记录下来。这是我们在世界机器人大会上展览的数据手套,相关理论成果获得了国际会议最佳论文奖。人工皮肤是我们课题组做的比较多的,这方面我们有一些体会,这是一个国际自然科学基金的重大仪器项目。当初我们觉得人工皮肤就是胶布贴在灵巧手上,现在很多人有这种观点,但是我们后来的研究发现不是,这是我们通过发现人在操作过程中,力一定是以操作点为中心向上周边逐步减弱的分布,用这种概念设计的触觉传感器应该是这样的布局。此外,我们研究发现触觉编码同灵巧手的构型和触觉分布有关,单纯的一块胶布,贴在手上,工作几个小时胶布没有了。我们最近提出了人工手指的概念,手指有表层、有真皮、有传感部分,表层的分辨率是可以变化的。这就是我们研发四模态传感器,可以观测物体表面的纹理,你看这个纹理非常的清晰,还可以测量分布式正压力、滑觉和温度觉。这是我们跟国际上相同传感器的比较,这是我们发布出来的第一个四模态的芯片,用在了机器人上面。软体也是我们这两年做的比较多的,这是我们世界机器人展出的软体的操作手,时间关系就不能放太多了。视触融合是一个比较难的问题,我们看看不同模态融合会出现什么问题?第一个尺度不一样,视角不同,还有采样数不同,你看这里视觉的采样数比较多,而触觉很少。有的时候还出现模态的缺失,这种情况下怎么做融合呢?我们提出了一种稀疏编码与深度学习相结合的办法。
这是基于经验学习和强化学习的机器人灵巧操作,这是我们在2016年提出的多目标检测算法,这个算法后来被新知元转发,2017年推广到了多尺度的多目标检测,可以用在光线变化较大和尺度变化较大的情况。这是我们做的一个很重要的工作,把触觉编码方法用于人的视觉编码里,奇迹出现了,编码精度更高,学习效果提高了6到10倍。由于上面这些积累,我们获得了2016年灵巧操作的世界冠军,今年由于五个参赛学生没有拿到签证,靠两个老师和INTEL的王涛参加比赛拿到了第三名,也算是为国争光了。
大家都知道自动驾驶,我们可以看到这张图谱里面,世界上的各大的汽车公司都在开始做辅助驾驶到全辅助驾驶,他们都有一个重要的目标,宝马2020年就能出现全工况的驾驶,通用、福特是2021年,所以我们将迎来无人驾驶的时代,这是李德毅老师做的非常好的工作,我就不说了。这是宇通大客车无人驾驶的情况。
智能安防是这两年我们国家进展比较快的,我国已建立了天网系统,像北京就有200多万个摄象头,一旦进入一类和二类摄象头,你的图象就已经在公安部个人资料进行匹配,目前识别率可达到93%。另外我们还可以用到人的生理特征识别,还有行人检测,车辆的检测里面,包括人群的聚集,一些危险情况的分析。社交网络这两年比较快,主要是手机终端和互联网的出现,应用包括用户画像,你的年龄、兴趣、性格,包括你的诚信度都可以通过社交网络估计。移动终端大家可以看到了,从手机到PC机到人工智能终端,这里人工智能是核心,像语音技术、图象识别技术,深度学习技术都集成在这个手机上面。具体来讲,我们的手机中已经从集成运动传感器,到了语音识别,又到了生物识别,现在又到了VR,将来买衣服可以通过手机感受到它的质地和飘柔感。智能制造是人工只能产业的重要部分,今天李院士特别强调智能制造太重要了,尤其在广州。这是智能制造领域的一个很重要的发明,Bigbelly 垃圾桶集太阳能、物联网、高效压缩机为一体,垃圾快倒满时,压缩机会在40秒内将垃圾的体积压缩到原来的五分之一,垃圾桶快满时候自动联网发送垃圾桶已满及地理位置等信息至垃圾处理中心。处理中心的系统根据各个垃圾桶发回的数据分析,规划最佳回收路线和时间。
智能教育刚才李院士讲的比较多,我就不多说了。
我们讲讲未来发展,人工智能的发展已经从弱人工智能到了以大数据和深度学习为主的弱人工智能,最后到神经机制驱动下的强人工智能。我个人认为,人工智能将来最大的产业是算法加软件和数据;第二是芯片,第三是智能教育,第四是共享平台。将来你家的冰箱,电视机都是共享的,你将来从广州搬到北京去什么都不用带,一切独有共享公司负责。另外还有产业服务,典型代表就是百度的天智系统。
下面用这首诗总结一下我今天的报告,叫人工智能新产业。
人物相融创智能,统归天地启明灯;
硅云计算深宽度,生物全息横纵腾;
先辈艰辛功业建,后生勤奋远程征;
智能产业添金翼,勇创高峰立志登。
今天我们佛山的朋友,你们一定在想我们对你的智能峰会那么支持,你对我们有什么表示吗?有,我把这首诗献给佛山的朋友,名字叫贺佛山人工智能产业峰会。
佛山千古耀穹苍,忠义群英誉四方;
昌盛腾飞增灿烂,繁荣跨越铸辉煌;
诗城浪漫名千里,水镇多情润万乡;
业界圣贤今盛会,智能产业启新航。
谢谢大家!
CAAI原创 丨 作者孙富春
未经授权严禁转载及翻译
如需转载合作请向学会或本人申请
转发请注明转自中国人工智能学会