7 月 7 日,由中国计算机学会(CCF)主办、雷锋网与香港中文大学(深圳)全程承办的 AI 盛会 --「全球人工智能与机器人峰会」(CCF-GAIR),在大中华深圳喜来登酒店正式开幕。
此次为时三天的CCF-GAIR是本年度国内人工智能和机器人领域规模最大、规格最高、跨界最广的一次学术、产业和投资界的盛会。
去年8月份,CCF-GAIR 2016作为人工智能与机器人领域的多界跨越首创,已经取得了三界人士的集体肯定。
阵容方面,今年的大会聚集了30位全球顶级学者,300多家人工智能和机器人领域的明星企业,携手打造13场大会报告,56个主题演讲,15个圆桌对话,11个人工智能+机器人分论坛,3000多位三界人士在场的盛大场面,一起助力大家探索AIR(人工智能+机器人)领域的未来。
大会开幕式,由「CCF - GAIR」大会主席香港中文大学(深圳)校长徐扬生进行致辞。
徐扬生校长谈到召开 CCF – GAIR 的目的:
当今 AI 和机器人革命浪潮下,包括我国在内的各国政府和投资界,都意识到推动这两个领域各个方面的全球协作、迎接机遇与挑战的重要性。而拥有完备制造产业链、作为改革开放窗口的深圳,则是推动 AI 与机器人行业产、学、研跨界协作的理想中心。基于这样的时代背景,「CCF -GAIR」应运而生。
7月7日当天是人工智能前沿专场,共分为:AI发展前沿、AI学术前沿、AI产业前沿三大环节。
AI发展前沿环节的报告嘉宾有:中国工程院院士潘云鹤;亚利桑那州立大学教授、AAAI主席Subbarao Kambhampati;中国科学院院士、英国皇家工程院外籍院士、IEEE Fellow、IAPR Fellow谭铁牛。主持人为香港中文大学(深圳)校长、中国工程院院士徐扬生。
AI学术前沿的大会报告嘉宾有:卡耐基·梅隆大学教授、美国工程院院士、美国艺术与科学学院院士、IEEE Fellow、ACM Fellow、AAAI Fellow金出武雄;伦敦大学学院教授汪军教授。主持人为香港科技大学计算机系主任杨强。
AI产业前沿的大会演讲嘉宾有:星河集团创始人、董事局主席徐茂栋;今日头条副总裁、IEEEFellow马维英;旷视科技(Face++)首席科学家孙剑;360副总裁、首席科学家、IEEE Fellow、IAPR Fellow颜水成。主持人为源码资本投资合伙人张宏江。
今天的报告与演讲结束后,CCF-GAIR也将正式启动全球开放数据创客马拉松(GOD)发起仪式,号召更多青年投身到人工智能的产、学浪潮中。
潘云鹤:谢谢徐校长,尊敬的各位专家、女士们、先生们,上午好!很荣幸能够在人工智能和机器人的论坛上和各位分享人工智能方面的一些看法,我今天报告的题目是中国新一代人工智能,我想讲四个方面的问题。
第一,问题的提出。
大家知道近年来人工智能在国内外迅速升温,这一次升温和前几次不一样,不是由学术界首先行动的,而是企业界首先行动的,我们看到微软已经开始成功地实现了小冰聊天机器人,可以从图形界面过渡到自然语言的界面,并且它还收购了一个社交网站,花了很多钱,准备用人工智能来建设一个智能的网上社区。谷歌用4亿英镑收购了DeepMind,AlphaGo不但崭露头角,而且谷歌宣传它将从移动优先转化到人工智能优先。Facebook也建立了专门的人工智能实验室,并且把人工智能作为它未来10年的一大支柱,另外那两大支柱大家也可以看到,也很有前途,但是它和人工智能结合在一起将更有前途。IBM的Watson人工智能部门,它的医疗诊断系统,尤其对癌症的诊断系统现在已经进入到中国,在杭州就有一家,是浙江中医院,已经在开始使用Watson的医疗诊断系统。而且在去年9月份,谷歌、facebook、IBM、亚马逊和微软等5家美国的科技巨头宣布成立人工智能联盟,对人工智能进行研究、推广、协调,中国的公司也不甘落后,百度公司去年入选为全球50家最聪明的公司第二,它在语音搜索、无人车、自动翻译和商业服务方面都有积极的布局。阿里巴巴的广告已经用人工智能实现了智能设计,阿里巴巴在支付宝上已经在开始使用刷脸支付。海康威视是中国的一家做安全监控的企业,它的摄像机已经用了人工智能的芯片,硬件不但拍摄下视频,而且可以把汽车的牌号、大小、颜色、厂家、人脸、人的高度都在硬件中间提取出来。华为也成立了诺亚方舟实验室,昨天我访问了中兴,中兴在人工智能方面也有广泛的实验,在云计算、通信装备、通信终端上面都有非常重要的发展。
另外一方面,中国的政界也十分重视人工智能的发展,政府工作报告也首次把人工智能列为中国要快速发展的高新技术,并且国务院还专门出台了一个文件,叫《互联网+人工智能》,我相信很快就会发布中国的新一代人工智能重大专题。
在世界上的发达国家在这一块的布局也很快,去年5月白宫就发表了文章,准备迎接人工智能的未来,并且提出要在美国的国家科技委中间设立人工智能和机器学习委员会,用来协调全美各界的行动,10月份又出台了一个联邦政府的报告《国家人工智能研发战略规划》,在这个报告中间指出,AI现在可能正处在第三次浪潮的初始阶段。
当然机器何时会代替人类?这主要是媒体界的炒作。英国的物理学家霍金说,人工智能的完全开发可能导致人类的灭绝,从现在起到一百年内,计算机将比人类聪明。还有另外一些科学家也讲过类似的话。媒体还登载了一些非常吸引人眼球的文章,比如说去年3月9号,英国的金融时报登出《互联网终结,人工智能的崛起》,他说现在美国斯坦福等四所名校人工智能专业博士的起薪已经达到200—300万美元,而互联网精英人才的起薪才20万美元。据我打听,这是个例,不是普遍的现象,虽然高一点,但是不至于高到这样的程度。说明媒体在这方面的兴趣有很多时间是超乎异常的,进行了很大的炒作。
在前几年中国工程院就开始关注人工智能,中国工程院进行了一系列的战略研究,我们在很早以前研究了智能城市、大数据、智能制造、创新设计、知识中心。在研究这些项目中间深深感到这些内容如果要引向生产,真正解决问题的话,它的技术都指向人工智能。表面看起来很多是大数据技术,很多是数据处理技术,但是到最后,如果人工智能不取得新的突破,这些问题都没有办法完全解决,而且现在中国有400个城市在建设智慧城市,中国的搜索引擎、图象识别、语音交互、工业机器人销量逐年猛增,而且中国工程院在UNESCO下面建立了“国际工程科技知识中心”,知识中心和大数据中心不一样,它是要实现数据到知识的转换。在这样的背景下,中国工程院在2015年就决定设立一个重大咨询项目,叫“中国人工智能2.0发展战略研究”。为什么叫人工智能2.0?因为项目组的专家认为,人工智能不但将有一次量的大发展,而且将会有一次质的大提高,中国在这方面应该进行一些前瞻性的研究,以便进行布局。
下面我讲第二部分,人工智能60年进程对我们的启示。大家知道人工智能是1956年一些教授在美国的达特茅斯这个地方提出来的,这里面的教授非常著名,有斯坦福大学、麻省理工学院、卡内基梅隆大学和贝尔实验室的教授、IBM的著名科学家,他们提出的人工智能概念就是让机器像人那样的认知、思考和学习,而且简单概括就是用计算机模拟人的智能。
经过发展以后,人工智能逐渐形成了它应用的7个基本领域,这就是人工智能最基本的工作方式,包含了这些领域:机器定理证明,主要是研究计算机进行逻辑推理;机器翻译,研究计算机自然语言理解;专家系统,研究问题求解和知识表达;博弈,当初最早的时候研究搜索,后来逐渐转化为神经网络;模式识别,主要用于视觉、听觉或者各种各样媒体的认知;学习,主要是研究神经网络;机器人和智能控制,主要是研究和模拟人的感知和控制。大家可以看到典型的这7个领域,都是去模仿人的不同功能。
现在人工智能的应用领域所取得的很多可应用的成果,实际上基本上是在这7个领域里面。也就是说60年以来,持续不断地研究,出现了今天的成果,然后在这个过程中间,人工智能还形成了不同的学派,比如说有符号学派、连接学派和行为学派等等。
人工智能这60年也不是一帆风顺的,它也有很多低谷,第一次低谷是1973年英国发表了一个报告,它对7大领域中间的3大领域(自动机、机器人和中央神经系统)进行了评估,评估以后得出的结论,自动机和神经网络有价值,但是进展令人失望。机器人的研究没有价值,进展非常令人失望,建议取消,这是人工智能第一次的严冬。现在看起来,当然这个结论过于草率,现在说明也是不对的,因为他太心急了,那时候人工智能处于婴儿期,你要判断哪些领域有前途、哪些领域没前途,实际上是不可能的。
第二次低谷发生在日本准备搞第五代计算机,也就是智能计算机,1982年日本的通产省主持了第五代计算机,准备计算机直接运行JAVA语言,直接进行推理,而且这些推理是并行的,能够研究一个听和说的计算机,这是一项非常大的、非常有前瞻性的计划,这个计划影响了全世界。到1992年,这个计划以失败而告终。现在看起来这个计划之所以过于超前,因为它希望用硬件来代替软件,看起来人工智能的发展软件是主要的,创新是主要的,而硬件看起来是可以局部的替代,但是不能全部替代。
第三次低谷发生在斯坦福,在知识表和专家系统非常兴旺的时候,斯坦福准备建设一个知识的百科全书,当时知识表已经比较完整,所以斯坦福筹集了很多钱准备了这一项大型的计划。它也取得了很大的进展,但是到了90年代后期,已经慢慢地显露出这项计划是不可能成功的,那时候互联网领域有一个新的工具出现,就是搜索引擎。搜索引擎用比它要简单得多的技术,能够很快速地提供大量的知识。所以尽管后期Cyc这个知识大百科全书也准备采用类似搜索引擎的方式来搜集资料,但是这个败势已经没有办法挽救了,因为谷歌、百度这样的公司已经建立起它的优势。所以这给我们的教训就是,知识不能靠专家手工表达,而要靠机器自动学习。
回顾人工智能60年的几次比较大的挫折,我们可以看到,人工智能的发展有两股力量,第一股力量,人工智能专家内部的研究力量,第二股力量是外部的信息环境变化的推动力量。外部的力量往往比内部的力量更加巨大,信息环境变了,内部的这些进展实际上抵不过它的巨大的推动力和需求力。而现在我们的人工智能刚好面临着一个巨大的变化的外部环境。
现在讲第三部分,人工智能走向2.0。
我们现在遇到了哪些巨大的变化?第一,信息环境变了,如果是30年以前,我们还是几个人围着一台计算机在转,后来我们变到每个人有一台计算机,现在我们一个人已经有多台计算机,我们包里面拿着一个笔记本电脑,口袋里放着一个移动手机,手上还戴了一个智能手表,都是具有计算功能的,而且中国也不满足互联网,我们有了移动计算、物联网、云计算、网上社区、万维网、搜索引擎,这个环境和前30年大不一样,在这个环境下一定会产生出新的人工智能。第二,社会的需求大爆发。我刚才已经讲了,中国工程院研究人工智能实际上是从很多其他的需要出发,而指向它的,不仅中国工程院有一批人工智能的专家,而是有很多需求我们发现必须进行搭积木,比如说智能城市,它走原来得分系统肯定是走不下去了,智能交通、智能医疗、智能社会可以取得进展,但这不是一个城市的整体智能化,城市是一个复杂的系统,它要整体智能化,需要打通它,需要产生新的大数据,在这个基础上进行新的智能运算才能进行下去。智能医疗、智能交通、智能游戏、无人驾驶、智能制造无不如此。人工智能的目标也在悄然变化,它的大数据,人工智能的基础是数据驱动,但是现在数据不一样了,现在是大数据、是多媒体数据,今后是传感器网的数据,现在已经出现了,而且出现了增强现实、虚拟现实的数据,这些数据如何进行智能化的运算?这就是一个新的命题。目标也不一样,过去人工智能的目标是用计算机模拟人的智能,而很多人工智能专家意识到机器人的智能和人的自然智能有重叠的部分,更多的是不一样的部分,他们的不一样,就好像汽车的轮子和人的两条腿是不一样的,它们各有自己的强处和各有自己的弱处,如果我能把计算机的智能、机器的智能和人的自然智能结合在一起,我们就可以形成一个更加强大的智能系统,这就是人机融合的增强智能的概念,而且我们可以用互联网把很多智能的机器和智能的人综合在一起形成一个更加强大的智能系统,这就是群体智能的概念。
所以大家看到人工智能的外部信息环境变了,它的需求变了,它的理念在很多人工智能专家的眼中也在悄然变化,这些力量一定推动着人工智能走向新的一代,而现在的机器学习,只是走向新一代的一小步开始,我们应该看到这一小步以后也许有很多大步等待着它。
我们现在看到人工智能在这个方面已经显示出一些新的特征。这些特征现在只能叫它端倪。
第一个端倪,大数据上的深度学习,而且加上自我博弈,或者叫自我锻炼,或者叫做主动学习,形成了新的综合的进化技术,这在AlphaoGo中间已经表现得十分明显。
而且这些技术已经用于真正的经济价值,比如说DeepMind已经用这样的技术在控制谷歌的数据中心,控制它的智能系统、风扇、窗户等接近120个变量,使得谷歌的用电效率提升了15%。但是这个15%产生的经济价值很大,有几亿美元,有人算过,说谷歌买它的钱都赚回来了,我当初还不相信,后来人家跟我讲,他说中国的数据中心耗电量也很大,2015年中国的数据中心总共耗了1000亿度电,相当于整个三峡水电站一年的发电量。如果1000亿度电节约15%,这个数字是十分巨大的。
第二个端倪,基于网络的群体智能已经开始萌芽。去年1月1号,《Science》杂志专门发表了一篇文章在研究群体智能的力量,它认为群体智能有三种类型,一种叫众包模式,一种是工作流的类型,一种是协同求解问题的生态系统模式,复杂程度依次上升。实际上群智在实践中间很多都已经取得了成功,我们看到谷歌的AppStore就是一个很好的群智的例子,维基百科也是用群智的方法建立起来的。美国普林斯顿大学进行了一次非常好的实践,他们的医学专家用显微镜把视网膜和大脑连接的神经显示出来,显示的神经十分详细,但是它的医学专家没有办法知道这个人机的功能,因此他就在网上号召全世界的医学科学家,尤其是研究视神经的医学科学家能够一起来识别这个神经的功能,识别什么功能就填上什么颜色,最后大家可以看到,全世界有145个国家,16万名科学家参加了这方面的行动,有的是科学家,有的还不是科学家,可能是医生或者是其他知道这类知识的人,最后产生了非常好的效果。
第三个端倪,人和机器结合在一起开始越来越多地出现在我们的面前,有非常大型的例子,也有非常小型的例子,也就是穿戴式设备越来越多。
第四个端倪,跨媒体推理已经开始出现。我们刚才已经讲到,多媒体是现在我们接触到最大的信息,现在网上的信息据说绝大部分是视觉信息,照片信息或者是视频信息。但是计算机迄今为止很难利用多种媒体共同工作。人是各种媒体、各种感知打通的动物,人有一种很重要的思维形式叫做形象思维,这个形象不完全是视觉信息,它是把视觉信息、语言信息、听觉信息、文字信息集中在一起。比如说我们在小说中间看到描述这个小孩在吃苹果,我们心里就可以调动出吃苹果的味道、吃苹果的声音、苹果的香味,把这些联合在一起,这就叫跨媒体。人工智能在过去60年中间没有解决这个问题,我认为在第二次人工智能中间我们需要解决这个问题。我们的很多创新性思维就是由此而来。在这方面已经有很多科学家进行了很好的探索。
第五个端倪,无人系统迅速发展。大家可以看到人工智能的早期,我们关注着机器人的出现,但是我们后来出现了这种倾向,尽力用机器去模拟人和生物的学位,仿生学影响非常巨大。但是后来我们看到了这种现象,另外一类机器人或者智能化系统发展得比机器人更快,这就是无人系统,现在的无人机、无人车、无人船迅猛发展,成为社会中间数量最大的广义机器人。所以我们认为机器人不会在急着走类人的那条类,而会走对机械进行智能化和自主化升级的道路,这样会更加高效。我这里有一个视频,有两个例子可以给大家看一下。
这是美国很著名的波士顿动力公司的双腿机器人。我们看到60年的发展以后,这个机器人已经很精彩了,当然我们还需要继续研究,能够把它尽快推向实用。
我们看到另一类机器人也很精彩,而且非常容易推向实用。这是中国的海康威视生产的机器人,而且正在进行实用。
所以我们可以看到,新一代的人工智能有哪些特点?它是基于重大变化的信息新环境,他是具有发展新目标的并且会产生新一代技术的人工智能。其中信息新环境,发展的新目标和产业的新技术我刚刚都讲了。
所以在这样的情况下,我们需要对新一代人工智能进行长远的研究和布局。现在我讲第四部分,中国新一代人工智能的重点方向。
我们建议中国在新一代人工智能方面研究的重点方向,包括大数据智能、群体智能、跨媒体智能、人机混合增强智能、自主智能系统。它应该使用于中国现在迫切需要解决的问题,比如智能城市、智慧医疗、智能制造等等。
其中大数据智能应该研究可解释的更加通用的大数据转化为知识的能力,而且特别要关注CPH三元空间。这三类空间是最近50年形成的,尤其是最近20年形成的,它们之间的互相作用会产生大量知识表的新的大数据,所以我们需要用数据驱动和知识引导相结合的方法来研究大数据智能,现有的机器学习是一个很好的基础,但它不是方法的全国,它需要把原来的方法和今后的方法结合在一起,形成新的大数据处理的智能。它可以用于智慧医疗和社会治理。
第二个方向是要研究群体智能,在互联网上的群体是如何进行组织的,组织过程中间如何能保持它的积极性,能够让更多有能力的个体更加好的涌现出来,能使他们如何进行协同和如何进化,如何使他们能够进行学习,这都需要有新的理论、新的模型。这些研究可以很好地应用在众创科研、分向交通和医学等等方面的发展。
第三个重要发展的方向就是我刚才讲的跨媒体时代。要研究跨媒体的感知、跨媒体的学习和跨媒体的推理,并且把媒体和用文字表达的语义打通,形成媒体和媒体之间的跨越,要研究语言、视觉、图形、听觉和各种各样传感器之间的感知分析和语义相通的理论方法和模型,它应该很好地使用在智能安全和创新设计上。
第四个方向是人机混合增强智能。要研究如何把生物的智慧和机器的智能能够紧密地耦合起来,这上面有脑机协同的环境理解、人机自然交互,知识如何进行共同学习,动作控制和决策等等理论,它可以用于脑控机器人、多自主智能体和管理软件,智能教育、穿戴设备等人机一体化新产品。
第五个方向是自主智能系统。它的目标是研究无人车、无人机、服务机器人、空间机器人、海洋机器人、无人车间、智能工厂,包括如何用计算机和控制技术来研究协同博弈、决策、行动这样的行为。
新一代的人工智能将和传统人工智能应用上有很大的差别,它不但要模拟个人,而且要模拟复杂的大系统。比如说电子商务系统、智能城市系统、智能医疗系统、智能交通系统、智能物流系统、智能制造系统,各种各样的智能制造系统,智能电网系统、智能社会、智能经济、智能图书馆。而且它还将形成各种各样的智能化产品,它和原有的飞机、汽车联合起来会出现无人机、无人车,它会出现新概念的机器人,它会和原来的手机结合起来,改造原有的手机,成为真正的人工智能手机,它能使游戏更加智能化,出现新的穿戴式设备,使得AR和VR走向新的应用,产生新的效果。总而言之,他将和中国的信息化发展结合在一起。中国的信息化加上原有的数字化,走向现在的网络化,我们现在已经在搞互联网+,它必定会和人工智能结合起来,形成智能化。
我就讲到这里,谢谢各位!
Subbarao Kambhampati:我叫做SubbaraoKambhampati,我来自亚利桑那州立大学,我今天将和大家共同探讨一下AI的崛起以及人工智能的发展,非常感谢主办方邀请我来中国,这也是我第三次来到中国。下面有我的联系方式,更为重要的是我的微信号,大家如果有任何问题可以通过微信和我进行联系。
就像刚才大家提到的,我也是AAAI的主席,首先我向大家简单介绍一下AAAI,AAAI主要是关注于人工智能的研发机构,它同时也是人工智能界最为久远的一个科学研究机构,它是在1979年建立的,它现在拥有大量的成员机构,同时AAAI也举办了目前全顶尖的人工智能论坛和相关的活动。我特别要提到的是,中国已经成为了AAAI非常重要的一员,有来自中国的很多的学者,特别是在中国加入之后,目前在我们整体的AAAI论文的提交数量,以及包括我们的科研提交量上,我们的文章的接受量已经远远超过了美国,而在去年AAAI会议计划在中国昆明举办,因为是春节期间,我们看到很多中国的开发者没有参加。徐扬生教授也是AAAI2019年执委会主席。
今天我主要要讲的就是人工智能。现在人工智能有一个非常有趣的话题,就是有意识的人工智能,有意识的人工智能除了它自己的特点之外,还有什么样的挑战呢?另外我还会再讲一讲有人工意识的人工智能,因为这个人工智能的细分方向在未来可能会得到学界的大量的关注,并且这个问题的研究也是充满了挑战。
当然,AI热带来的一个信息是什么呢?就是像我这样的科学怪人能够有机会上镜,在电视上大讲AI技术,在之前像我们这些做研究的学界的人士是没有机会到电视上的,现在我们被邀请到电视上讲一讲人工智能,讲一讲机器人。
今天我想讲什么呢?就是考虑到我刚刚讲的这些大的背景,在座的各位观众可能有的是研究AI的专门,有的是初学者,我给大家简单地做了一个梳理,来帮助大家了解为什么现在AI变得这么热。我们先想一想人的智能,我们看看宝宝,人类的宝宝在出生的时候,他们开始有一些特征和行为,在早期的时候,孩子会有感知和模仿的能力,他们会观察世界,然后他们会去模仿我们的行为。这是我妻子的学生做的一个图,他用这个图来看他的孩子在吃饭的时候做一些简单的行为。另外,在孩子成长的过程中,他们会逐渐看这个世界上的事物,然后他们开始有了情感的智力,然后他们有了社会的智能,另外他们还会有感知的智能和推理的智能,比如说大家去上学,在上学的时候就培养我们自己的感知能力和推理能力。当然,在大学、中学和小学,我们都要进行各种各样的考试来培养和锻炼我们的感知能力,这就是人类如何去发展自己的智能的。
我们再看一下AI,在90年代的时候,我们有一个专家系统,这个专家系统是一种基于规则的系统,当时许多企业都开始采用这种基于规则的系统,当时所有主流的公司都会用这种规则系统,在90年代的时候有深蓝计算机,它和俄罗斯的国际象棋手进行了比拼,并且获胜,所以那时候计算机开始有了推理的技能,到2000年的时候我们看到有深蓝的升级版本。深蓝能够在一个蛋糕和一个棋子中间进行感知和选择。在那个时候深蓝计算机本身还没有感知的能力,而在2000年之后,我们会看到现在最新的一些AI技术,让我们的AI有了感知的能力。另外,他们开始进行语音的识别、图象的识别,而且我发现如果把语音和图象的识别跟感知结合在一起,将会是未来一个很火热的话题。从过去到现在,人类是从感知到智能,而机器是走了一条相反的路,所以机器的学习跟人类的学习是不一样的。
为什么机器或者是AI的学习跟人类的学习是相反的呢,它们为什么不是先去感知,然后再去观察呢?我们就必须要了解一下计算机解决问题的方案跟人类解决问题的方案是不一样的,计算机看到一个东西,它会有自己的思维,而如果人看到一个东西,它会去进行描述,另外它还会跟别人进行争论和探讨,所以对人类来讲,人类的学习模式是更适用于人脑的,而机器的学习模式是适用于机器的,所以对机器来讲,推理是非常难的。
现在AI技术为什么变得大热呢?这是因为我们发现在现代的AI技术之下,我们能够通过人工智能的技术,让我们的手机看到我们所看到的世界,并且这个手机还能把它看到的信息跟我们进行反馈。如果我们能够实现这样的人机互动,每个人都能够去用人工智能,大家都能知道在最新的围棋比赛中,如果我们能够使用这种人机共识或者是共同工作的状态,在未来AI技术会得到更大的应用。同时,这个现象也有一些副作用,我们在生产生活的各个方面都看到AI技术的使用,在漫画里边大家能够看到,当深蓝计算机跟人类的棋手进行比赛的时候,它说“这是1970年,你不要跟我讲AI,这时候AI技术还没有这么智能”。现在又走到了另一个极端,任何一个行业都在讲AI,而深蓝以及AlphaoGo,这些机器每天都在跟人类的智能进行比较和衡量。所以现在大家看到任何东西都要言必讲AI,因为这是人们愿意听到的,这也是AI大火带来的一个负面作用。我觉得AI技术的大热可能会让我们蒙蔽了双眼,不能看到它未来的前景。
现在当然我们能够做图象的抓取,能够做语音的识别,但是这就够了吗?
这是阿基米德,他是希腊的哲学家,他说“如果你给我一个支点,我就能够撬动地球”。现在人们说,如果你给我一个足够大的GPU和足够大的数据,我就会给大家创造出超只能。这种超只能看起来可能比较滑稽,但实际上它给我们彰显了在未来人工智能的一个新的前景,那就是超智能。
通过机器学习,可以进行犯罪分子预测行为的准确性达到95%,可以甄别谁是犯罪分子,谁不是犯罪分子,它可以通过我们帮助社会上的人是不是犯罪分子,但是这样的系统也出现了很多争议,大家在探讨这到底是不是人工智能的一个好的应用,这样的方法是不是能够使用在智能的犯罪分子的预测上。这篇文章要让我们设想一下,为什么我们要在人工智能方面谈伦理学,我特别谈到这一点,对于任何复杂、强大的技术,我们都要思考一下,我们到底应该如何使用它,如何用一种谨慎的方法来使用他。当AI在发展的过程中,很多人报道关于AI的技术,我们谈到的只是技术本身,我们现在也要探讨在人工智能方面的一些伦理方法,以及包括在技术使用上的伦理道德的原则。
我们这里特别提到了这一点,如果我们要让AI来决定人到底是不是犯罪分子的话,我们不能找一些滑稽可笑的理由,我们必须要能够向人们解释出来,以合理、公平、道德的方式展示,为什么这样使用。这是我今天演讲特别要提到的,AI对我们的文化产生了非常大的影响,同时AI也带来了大量的福祉。但是现在AI已经是一个非常强有力的技术了,这个技术在发展过程当中,有很多的公司对其进行商业化,进行了大量的转化。但是我们应该想想这些技术的使用,如何能够进行一个审慎的、具有伦理性的发展,我相信大家可以更好地了解我们AAAI,以及我们这个联盟,事实上我们都在不断地倡导对于AI技术的伦理性、道德行的使用。
在youtube上有这样一个视频,我在这里面特别提到了关于人工智能对社会伦理的影响,以及使用上的问题,如果大家感兴趣的话可以看一看。
首先我们来看一个常识。常识是我们经常提到的,什么叫做常识?我最喜欢的就是麦哲伦的这个案例,很多人都有这样的常识,我们大家都知道这个问题的答案是什么,但是对麦哲伦来说,他到底是在哪一次的旅程当中去世的?我相信在中文和英文当中都有同样一点,如果你了解麦哲伦航海的故事,你就能非常清楚地了解到这一点。还有其它一点,我们可以看到从语义的角度来说,它从表面上是一模一样的,但是我们到底能找出在同样两句话当中语义的差别是什么?从2016年开始,我们就开始进行关于语义的了解,我们去年开始了一个比较大的竞赛,这个竞赛最终的结果事实上并不是非常的有效,我们希望能够真正地寻找到在同样的语言背后的语义的变化,能够让我们的人工智能真正了解到这一点,同时能够帮助我们更好地了解到这个机器所没有办法了解到的人类的自然语言的语义变化。事实上还有其它的一些变化,我也想和大家进行分析,就像我们提到的关于麦哲伦的这个问题也是如此。
我刚才和大家提到了一个不完整性,也是一个非常大的挑战。因为现在越来越多的人开始探讨超级智能,或者是包括智能至高无上的发展,以及机器的完全智能,它们将取代全世界,人类将会灭绝,或者有人说人类会成为机器的奴隶,我觉得你完全不用担心这些部分,因为我相信如果我们有这种杀戮的机器,如果它使用的是一个对世界的不完整认知,它确实会带来很多负面影响。但是对我们来说,它这样的一种结果是非常不可预见的。我们如何能够在一种不完全的模式下,能够对机器来进行训练,这一点是非常重要的,接下来这个部分我还会谈这个观点。
最后一个部分我想和大家探讨的是一个非常大的挑战,也就是我们如何去确保人工智能和人来进行共同的交互。这一点也是在接下来的十几分钟我会和大家进行分享的。
在这里我想和大家特别提出的是,在人工智能当中,人工智能作为一个整体,它和人之间的关系是非常有意思的,他们希望能够帮助人类,但是他们并不是非常希望能够看到在人机协作方面所出现的大量的问题。大家想想下一次你提到人工智能的发展的时候,我们可能花了很多的时间来看我们的人工智能的机4器战胜了非常知名的棋手,它在帮助人的同时也战胜了人,很多人提到了人工智能和人之间的关系的恶化。与此同时还有一点就是在之前的文章当中,很多人提到人工智能会取代人,人将会成为人工智能的奴隶。但是对于我们来说,我们自己应该要关注这一点,特别是对于人工智能的负面报道,我们必须关注。
去年我负责了我们的全球人工智能联合大会的国际会议的主办,当时我们就建立起一个特别团队,我们提到了应该是有意识的人工智能,我们特别提到了关于人和机器如何能够得到有效的结合,能够共同协作,这才是最为重要的。在那次会议上,我们就提到了我们为什么要主观地设计这样一个未来,我们为什么要去设计一个让我们自己能够担忧的未来,而与此同时,你们如果认为机器能够战胜人类的话,人还应该做什么事情呢?我们人应该是能够让机器辅助人,增强人的能力,这是需要我们各界相互协作。很多人提到了有意识的人工智能,人工智能或者是有意识的人工智能,可以真正地将我们从传统的机器人为主导的趋势中救出来,我们相信对机器人的负面的报道也会不断地减少。
这是JASON报告,这是一个非常知名的智囊团和咨询团,他们为美国不同的部门提供服务,我之前参加过一个JASON的会议,有一个人说了我们现在必须决定的三大问题。在JAZON现在进行了大量的关于人工智能的研究,同时他向我们展示我们如何在人工智能的各个方面发力,其中他特别提到了一点,就是以增强人类生产力为发展的人工智能,将会最终走向有意识的人工智能的发展。与此同时,我们可以看到当我们在预测未来的人工智能发展的时候,也有一个白宫的报告,它特别提到了我们必须要寻找到有人类意识的人工智能的新算法。
现在我们已经进入了人工智能2.0时代,我们会走向更多的人机协作的时代。为什么我们必须要让人们意识到这一点?为什么我们会提到这一点?为什么我们在做这方面的工作?我在这里和大家探讨一下目前在AI方面的社会学问题。当每次提到人机协作的时候,人们都是觉得好像是一种期待的过程,大家觉得只是人去解决问题,而机器就站在旁边,什么都做不了。对于我们在座的很多年轻人,或者是各位工程师、技术人员,我们都知道这是我们真正的机器对话,这个机器可以有非常好的智能,但是这个机器后面还有一个人,他在阐述这是一个机器人,但是里面藏着一个真正的人,这是一种谎言,这样的谎言也是人们希望有人的感知能力的人工智能发展过程中的谎言。
人工智能还有没有别的挑战?如果机器做的事情越来越多,人的能力会不会被机器取代?大家都认为,如果机器的能力越来越高,我们就不需要人了。我们再看一下人机融合或者人机合作,人机合作就能拓宽AI技术的深度和广度,而现在人机融合也能打消人们的担忧,比如说有些人担忧机器人将会取代所有的人类进行工作,如果进行人机协作的话,就打消了这种疑虑,同时人机合作或者是有意识的人工智能,它还是一种全新的研究方向,这在未来可能会被认为是一件很酷的科研的方向。现在有许多新的科研的挑战在人机融合方面,从高层或者是政府层面来看是看不到的,我们讲人机融合在操作上有许多的问题需要解决。
有人说,人们需要我们自己的大脑,不光是去看老虎,看狮子,而是去互相观察,在大多数时候,人类的大脑实际上做的事情不是自然的观察,而是社会的行为,比如说我们会倾听、交流和互动,这也就是人脑和机器的大脑能够互相进行合作的地方。因为人脑具有社会交际的功能,所以它能够填补机器在这方面的空白。
现在大家再看一个智能主体的结构。我们会有一个智能的主体,首先我们要看在这个智能主体之内,它有制动器,也有传感器,我们会看世界,观察这个世界的信息。而对于人脑来讲,人脑也是一个智能主体,但是他观察信息的方式是完全不一样的,大家知道人脑,我们也可以模拟人脑,我们会发现,如果我们让AI的机器模拟人脑的时候,我们就会看到在这张表上一个智能主体的结构变得非常的复杂和丰富。举个例子,如果是出现一个表征的情况,他们不光能够看到现在是什么样,而且他们会想到此刻我周围的人在考虑什么,我周围的人考虑的东西和我之间有没有什么关系。机器不光是对周围的信息感兴趣,而且他开始因为新的人机融合的智慧主体,开始对周围的事情产生关联和联想。就像人脑一样,我们的机器和人脑进行融合,就会关注越来越多的周遭环境的信息,包括这个人在想什么,这个人下一刻在想什么,他想的东西跟现在的环境有没有关系,另外我们还要对这些信息保持持续的追溯。所以人脑抓取信息是越来越复杂和丰富的,如果进行人脑融合的话,我们就可以让机器感知和解决现实中的问题。如果我们关着门一个人待起来的话我周遭的世界是很简单的,但是在社交生活中永远都不是一个人在闭门造车,所以我们需要社会的智能和情感的智能来弥补机器所不具备的这两部分的技能。
我差不多讲到这里,最后我会给大家放一个短片。我再简单地回顾一下我刚刚讲的所有的东西,首先我给大家做了一个简单的关于AAAI的介绍,AAAI是美国的人工智能年会,我们每年都接收关于人工智能方面的论文。今天关于人工智能的研究已经成为我们社会责任的很重要的一部分,而且我们也可以看到中国在全球的人工智能方面的贡献正在变得越来越多,因为我们收到的每两篇人工智能的论文里面就有一篇是来自中国学者的。其次我还讲了人类的婴儿和机器在学习方面的差异。另外我还讲了现在AI技术的一些专业的门槛。最后我讲了如何进行人机协作,并且培养出有人类智能的人工智能,当然这也是我们未来非常困难的命题,这也是像我这样的科学家在未来可能去解决的问题。因为大家都知道,最终的目的实际上不是让机器去取代人类,而是让人类更好地跟机器协作。
谭铁牛:谢谢杨教授热情的介绍。各位老师、各位同仁,大家上午好!非常荣幸和高兴有这个机会跟大家汇报一点自己关于模式识别的个人思考。
6月28、29日在天津开了一个世界智能大会,两周以后的7月22、23日将在杭州召开第三届中国人工智能大会,今天的会场坐无虚席,隔壁还有一个直播厅,每个人工智能大会都是人员爆满,确实让人非常鼓舞。我的报告题目是“模式识别研究的回顾与展望”,我今天不会讲具体的算法,我是希望通过这个发言,让大家了解模式识别目前的现状,特别是在大数据时代,在人工智能非常火爆的时候,模式识别下一步有哪些方向值得研究,所以我更多的是一个情况的介绍,不讲具体的算法,我一般都会把这方面代表性的文章列在后面,大家可以会后再了解一下。
我今天主要讲三个方面的内容。第一是简单回顾一下模式识别这几十年的发展。第二部分说说模式识别的发展现状。第三部分是以我个人的视角,我觉得特别值得关注的几个研究方向,有的内容在其它场合也讲过,今天我也做了一些更新。
模式识别这个概念对于今天在座的,包括在隔壁房间的同仁们并不陌生。模式识别是Pattern Recognition,模式是存在于时间和空间中具有可观测性、可度量性和可区分性的信息。识别是对各种有形的模式进行识别。
模式识别大概的步骤大家都知道,它本质上讲是要找到一个影射的过程。尽管模式识别是一个非常古老的话题,它不是一个新话题,但是我这么多年做模式识别研究,还没有找到一个标准的定义。所以我在这里列出了一些模式识别的定义,大家看到有非常多的定义,但是不管它是什么样的定义,都有这样几个步骤,首先是要获取信号,比如你要识别苹果,要把苹果树拍下来,找到苹果在哪个地方,把这些数据进行了预处理,然后再把它进行特征描述,当然你可以进行特征抽取,显性的特征或者隐性的特征,然后进行识别。这是一个基本概念,不是因为我是做模式识别的才说模式识别重要,它确实重要,它是人类最重要的智能行为。所以机器的模式识别能力反映了机器智能的类人程度。这个人大家不清楚,他是美国的发明家,未来学家Ray Kurzweil,尽管他的很多观点我不认同,但是他的这个观点我是认同的,他说模式识别是人类最重要的智能行为,机器的模式识别能力反映了及其只能的未来方向。
当然说到模式识别的发展和历史,不得不提到相关的杂志和组织,时间关系我就不全面展开讲。值得一提的是我们这个领域最悠久的刊物Pattern Recognition Letters,还有这里面最重要的一个组织是IAPR。国内也有很多这方面的组织,包括CCS也有一个人工智能和模式识别的专委会,我所在的国家重点实验室在国家自动化所,也是国家第一批设立的模式识别重点实验室之一。
模式识别无论是从第一个OCR的专利算起,还是从计算机的诞生算起,都走过了长达半个世纪的发展历程,中间历程也在不断创新,从最早受益于数学的基础,比如说统计学等等,所以统计学首先兴起,后来又有句法模式识别,句法模式识别也曾经流行过一段时间,后来又有了神经网络,大致上的理论创新是这样的脉络,当然中间也有交替。所以发展到今天,以深度网络为代表,模式识别应该说进入了新的发展时期。所以无论是统计模式识别、句话模式模式识别还是神经网络模式识别,当然也有人把神经模式识别算为统计模式识别,它们各自都有各自的优缺点,都不能相互取代。
在理论创新不断取得突破的同时,应用不断地拓展,这方面非常多,大家仔细想想这些年深度学习的热潮,人工智能的热潮,很多方面都是因为在模式识别得益于深度学习的发展,很多方面都是模式识别方面的突破,比如说大家非常熟悉的早些年的VOC,图象识别、语音识别,都是模式识别典型的问题。也就是说模式识别这些年的发展,在推动它的发展方面发挥了特别重要的作用,特别是在领域方面的不断地拓展,从最早的字符识别,到后来我严重的非常多的模式识别的领域,大家每天都会接触到模式识别的应用,我这边可以举几个例子,主要说明对一些特定的模式识别问题,计算机模式识别已经取得了巨大的进步,我暂且把它叫做专用模式识别。
我前面提到了深度学习,这些例子大家都很熟悉,我提一提,如果大家熟悉的,再温习一下,不熟悉的,我再讲一句,对于你我来说,如果看这两个图象,大家都会识别出来是一辆车,但是目前深度学习没法把这一列的图象正确的识别出来。是的东西它不能识别成是,它会把不是的东西识别成是,这说明深度学习的问题,它在鲁棒性方面、算法性方面还有问题,当然要特别说明一下,这是特意叫人工合成的,或者人工有意产生的这些图象,让它识别不出来。
所以计算机视觉的鲁棒性是很大的问题。比如说它的旋转性,它的光照变化,它会把凹进去的东西看成凸出来的,还有遮挡、光照、背景凌乱的影响,这都是计算机视觉里面常见的干扰,但是都是没有办法完全解决。语音识别也是一样的,在嘈杂的环境下机器识别还是比较差的,这是鲁棒性的问题。
还有自适应性差的问题,人能够对不同场景下的相同目标或其它语义下进行分析,但是机器不行。
还有可泛化性差。人有举一反三的能力,但是机器不行,所以我们需要大样本的高质量的训练数据。人通过看书就可以学习,小孩子看了一个苹果,只要她妈妈告诉她这是苹果,以后不管他碰到什么样的颜色,什么样的形状,他都知道是苹果,这个泛化能力非常了不起,所以怎么样让我们的计算机模式识别方法能有这样的泛化能力就非常重要。
还有可解释性差,大家都知道深度学习很好,但是深度网络,我个人认为它还是一个黑箱模型,它没法解释它得出的结果,当然人是可以解释他的结果的。
上面这个人是Robert M.Haralick,他是著名的计算机视觉专家,他说计算机是觉得根本问题是一个鲁棒性的问题,如果不考虑鲁棒性的问题,计算机视觉几乎所有的问了都解决了。我对这个观点是赞同的,所以这方面是模式识别下一步要啃的几个硬骨头。
模式识别发展到今天,我对它的现状有几个概括,第一是面向特定任务的模式识别已经取得突破性的进展,有的性能可以与人媲美,甚至超过人。统计与基于神经网络的模式识别目前占主导地位,深度学习开创了新局面。通用模式识别系统依然任重道远,关键问题是我们需不需要通用模式识别系统,这也是大家需要思考的问题。如果需要,这样的系统还任重道远。鲁棒性、自适应性和可泛化性是进一步发展的三大瓶颈。怎么在这三个方面有所突破,这是模式识别下一步特别要关注的方向,至少我和我的学生是这么想的,我也是要求我的学生这么做的。
怎么去突破?这就是我下面要给大家重点报告的内容。也是值得关注的方向,我认为第一个值得关注的就是怎么突破那三个瓶颈,我首先是生物启发的模式识别。上次我在北京还专门就生物启发的模式识别做了一个发言,今天把它的有些内容再说一说。自然界生物系统有太多的机理值得我们学习,我引了两个人的话,一个是科学家,一个是政治家,他们都是说明向生物系统学习的重要性。历史上模式识别与计算机视觉的发展,很多方面受益于生物机制的启发。比如说我博士时期做了纹理分析,当时我用得最多的就是Gabor函数,通过这个函数发现人的感受和Gabor函数非常相似,所以我当时做博士论文的时候用了这个函数,我发现效果非常好,当然后人也做了很多的工作,形成了纹理分析的很经典的方法。我主要说明从生物学习、人的大脑机制学习的有效性,当然还有显著性、注意机制等等。包括我们现在的深度学习、多层网络,实际上都是从大脑获得的启发。
我下面简单地给大家报告一下,从哪些方面可以借鉴人类大脑或者生物系统有哪些方面值得我们学习,我把它分了四个层次,从微观到宏观都有一些值得我们借鉴的机理。当然,需要借鉴首先要知道有哪些东西可以值得借鉴,然后怎么对它们进行建模,怎么再嵌入到模式识别的算法里面,所以这是不同的问题,我今天主要是给大家报告一下在这四个层次,有哪些机理能够值得我们借鉴,能够值得我们尝试一下,至于怎么去尝试,怎么去建模,我每一块都提一两个代表性的工作。当然最微观的层面,我们的大脑有1000亿个神经元,它的链接就更多了,神经元有很多不同的类型,它有兴奋性、有抑制性的,在这里面如何把神经元得到体现,神经突触有功能可塑性、结构可塑性等等。这是在最微观的神经元这个层次。
在神经回路这个层次,同样有很多值得我们借鉴的东西,比如说深度学习、深度神经网络,目前绝大多数都是前向链接,实际上在人的大脑上上还有后向和侧向的。还有更宏观的功能区域,可以有多脑区,不同脑功能区的协同等等。
最后最宏观的就是在行为层次的学习机制,我们人是怎么学习的,在学习机制方面,学习的过程我们可以借鉴,学习的方法我们可以借鉴,还有学习的效果也可以借鉴,所以在这几个层面有很多东西值得我们借鉴。
下面因为时间关系,我点一点在每个层次有什么代表性的工作。
比如在神经元层次,我前面提到了它有不同的类型,有的是兴奋型,有的是抑制型的,这边我抑制了今年我的同事发表的一篇文章,引用不同类型的神经元,它的效果有不同的提升,同时神经元的类型可以自动学习获得。所以深度神经网络不是单一的类型,它有多种类型。我想Hinton教授大家很熟悉,他模拟神经元的噪声特性,在渲染过程中有的隐藏节点不考虑,暂时简化了网络结构,提升了网络的效率,从一定程度上解决了小样本的问题,解决了神经元的机制问题。神经元的放电效应也不一样,特别是神经元可塑性机制,Bengio借鉴这个机制发现确实能提高兴奋。至于怎么借鉴,怎么建模,大家可以参考这上面列的相关的文章。
在回路这个层次,有前向链接、反向链接和侧向链接。这是大家都非常熟悉的前向链接,现在大多数的深度学习都是前向链接的,包括AlexNet和VGG都是前向链接的。这里我要重点说的是侧向链接,就是在同一层的侧向链接,这是我引用清华大学的教授发表的文章,它确实可以提升兴奋。反向链接是我们自己的工作,是我的一个博士生做的,试图通过反向链接把高层的信息往低层再传递,发现效果也非常好。
另外一个层次是功能区域,就是更宏观的区域,在不同的脑区有不同的功能,中间怎么协同,或者不同的脑区协同完成一件任务,也有很多值得我们借鉴的。这是我的一个学生做的研究,把不同的脑区的功能协同机制借鉴到多任务训练学习方面,也取得不错的效果。
再一个是多通道协同,这篇文章也许各位知道,这是牛津大学的教授做的,大家知道视觉通路有一个背侧通路,还有一个腹侧通路,他们借鉴这个机理提出双同路的卷积网络,一路负责挖掘表观信息,一路负责获取运动信息,这个效果非常不错。
注意和记忆机制的研究比较多,这个比较好理解,这也是我的一个学生做的,大家如果有兴趣,很容易找到这篇文章。记忆和选择性机制、注意机制,计算机视觉里面用得比较多,我就不展开讲了。
最后一个是学习机制。值得关注的方向,我今天重点讲生物启发的模式识别,现在讲这一个,后面还有四个。
宏观层面就是行为层次,人的行为,特别是学习过程的行为有什么机理值得我们学习?我前面讲到机理方面学习的借鉴、过程方面的借鉴、方法方面的借鉴。学习的过程有发育学习、强化学习,方法有迁移学习、知识学习,学习的效果有生成学习、概念学习。
模仿生物从简单到复杂的学习过程,在积累的过程中拓展学习范围,人的学习就是这样的机理。这个研究是试图借鉴人从小到大学习过程的机理。
强化学习这一点大家都非常熟悉,这里我特别要说的是跟环境的交互,我们在成长的过程中跟环境的交互,对我们获取外部世界的信息,获取知识至关重要。我经常讲如果我站在这个地方,那个地方看不清楚,我会主动的动一动,通过跟环境交互来学习,从而增强对环境的自适应性。这是我们自动化的同事做的几个简单的演示,这个无人机通过跟环境的交互自动学习找到一个可以穿过去的地方。
还有迁移学习,这一点我留给杨强教授去讲,这一点也是我们人具备的,如果你的乒乓球、羽毛球打得好,说不定网球打起来也会学得更快一点。这是我的一个做手写识别的同事,他把迁移学习的概念用到手写识别上,也获得了很好的效果。
还有一个是知识学习。人有这个本领,在识别一个东西的时候我们会用大量的先验知识,再结合现场观测到的信息,也就是先验知识和数据的结合,来有效识别你所看到的物体,这是我们人都能做到的,基于这样的机制,计算机也能做得很好。
还有生成学习,现在这一点很火,它是通过产生更多的原始数据样本分布一致的大量的深层数据,一方面可以解决小样本的问题、训练数据的问题,同时可以提高算法的垄断性和泛化能力、自适应性。现在大家非常关注这方面的工作,我们也做了一些工作。大家看这几组照片,主要是说明通过网络生成的图象非常逼真,这是输入图象的侧面,这里一共有四组图象,每组左边一列和右边一列,其中一组是原始的,另外一组是生成的,中间是输入的,如果不特别仔细看,你根本看不出是左边是计算机生成的,还是右边是计算机生成的,说明它的网络生成的数据还是非常靠谱的。因此它可以用来训练你的网络,这是我的团队中的一个教授做的工作。
还有一个是概念学习,2015年底的时候,在自然杂志上发表了这样一篇文章,当时还引起了小小的轰动,试图克服深度学习对大量大样本训练数据的需求,来模拟人从机器少量的数据里面来学习知识,就像前面讲的一个小孩看到一个苹果,后来再看到更多的苹果他都能识别,这是小样本学习,如果大家有兴趣,可以了解这篇文章,它是典型的通过统计的方法,学习了规则,规则是结构模式识别所需要的,所以从统计方法获得规则,然后用这些规则来进行识别,所以它是一个从统计到结构,然后从结构到统计相结合的模式识别方法,我认为是一个很有前途的方法。
这是我今天要给大家报告的值得关注的模式识别研究方向的第一个重要方面,就是基于生物启发的模式识别方法。
值得关注的方向还有四个,我也简单提一提。因为我今天重点是要讲生物启发的模式识别,我认为这是解决那三个性的瓶颈的重要的途径。
第三个是结构和统计相结合的模式识别新理论。这是一个值得关注的发展趋势,目前的研究还不是太多,因为统计方法和结构的方法各有自己的优缺点。结构方法的原理很清晰,描述很紧凑,样本要求也少,但是它没有充分利用所有的数据。统计模式识别应用范围光,但是它对数据质量要求高,而且原理不清晰,有的时候不可解释。
第四个方向是数据和知识相结合,这个也好理解,现在大家都强调数据的重要性,数据当然很重要,但是数据不是一切,我前面讲到借鉴神经回路链接的过程中,我提到了反向链接,也就是说从上一层的信息传递到下一层,把知识传递到下一层,数据和知识相结合也是一个非常重要的发展方向,所以数据和知识相结合非常重要。
第五个是以互联网为中心的模式识别。互联网上有太多的数据,有大数据、知识、交互、众包等等,所以可以说是人类智能+机器智能的混合载体,怎么样把互联网的海量数据充分应用起来,对于推动模式识别的研究和发展非常重要,同时整个模式识别系统流程完全基于互联网信息,同时互联网上很多的任务需要模式识别完成,互联网上这么多的信息,反映什么样的态势,它是需要数据的挖掘、模式识别和分析。所以去年IJCAI有一个文章发表,它在很多方面都是在讲模式识别的问题。
今天我就利用这点时间,首先给大家介绍一下模式识别的基本概念,我也知道今天在座的同行们不一定完全都是做模式识别的,特别是我简单回顾了一下模式识别几十年发展的历程,包括它的目前现状,现状就是在我们目前有三根硬骨头,鲁棒性、可泛化性、可适用性。另外依据我自己的浅见,我认为这5个方向,特别是基于生物极机理的模式识别值得大家关注。
模式识别非常重要,这三性是三个硬骨头,瓶颈需要突破,向生物系统学习,注重结构与统计相结合,注重数据与知识相结合,而且重新利用海量的互联网数据是特别值得关注的研究方向。我的发言就到这里,说得不对的地方请批评。
金出武雄:今天我要给大家讲的主题是在真实户外场景中能够应用的机器人系统,我为什么要讲这个主题呢?因为我觉得智能不光是用来玩游戏还是信息处理,实际上真正的智能应该是在真实的环境下跟人类进行互动,所以我们应该有这样的智能机器人的系统。
到目前为止,我们的自动驾驶车知道开到什么地方去,特别是乡村道路上,很多时候就可以探讨使用这种智能大灯,就可以直接告诉你行使的方向。或者目前很多自动驾驶的系统都可以直接检测到周围的人行道或者自行车,这种监测功能反应比人还更快,所以一旦系统监测到这种行人或者自行车的话,智能大灯就可以向这些行人或者自行车投射更多的灯光,让你可以清楚看到旁边有人,不要开车撞到别人,这样会保证更多的安全性,也有更多的应用。也可以把它直接放到我们的车上进行智能大灯的调整,你就可以拥有一个车前盖的大灯。可以看到这样的应用是很有意思的,可能看上去是一个创新,它把智能的应用,把电脑视觉的技术在大灯上得到应用,可以让我们的生活与众不同,提高生活质量,这也就是为什么在这里我提到我们要使用智能技术的最重要的点,创造生活更好的条件。
到目前为止我们有了增强现实,增强现实是一个非常非常有效的概念,当大家在进行手机的使用过程中,你可以从不同的角度使用增强现实技术,比如说像去年的PokemonGO游戏,或者你通过增强现实技术也可以更好了解到你现有的面前楼宇的具体情况,这到底是不是真正的增强现实呢?我觉得并非如此,我们所提到的如果我把这些增强现实的手机拿掉的话,我根本看不到这个游戏,也看不到这个大楼,但是真正能够做到增强现实的不是现实本身,真正能够做到增强现实的是通过显示屏本身所能够展现出来的关于现实场景的真实信息。当我去参加增强现实大会的时候让我做主旨演讲,我跟他们说你们大会的名字选得不好,后来他们主办方就不太喜欢我,这也是我开个一个玩笑,我觉得是通过LED来增强现实。
当我们提到机器人或者机器人的发展,事实上并不是专门针对于工厂或者其他的一些场景,它同时也可以使用在户外场景中,我们称之为实地机器人或者是户外机器人。它可以拿来做道路的勘探或者做道路的监测,这些户外机器人有些非常有意思的应用,因为他们是在完全不知道、完全新的户外场景中,他们对场景的了解比较少,今天我就简单介绍一下户外机器人的使用包括在卡耐基梅隆大学是如何做这项工作研究的,这个工作是我和我的同事一起进行的。
在机器人研究上已经有了很长的时间,从1980年开始就已经实地机器人也就是户外机器人的研究了。当时我们跟很多知名科学家合作,也有很多的明星科学家在这个项目中产出,同时我们把大量的机器人放到要求非常高的活动当中去完成任务,从历史的角度来看一下他们做了什么工作。一般情况下他们都是这种危险环境下来进行工作的,比如说回到80年代的时候,大家都知道我们当时有第一个机器人,这个机器人去到了3M岛的核电站,是在核泄漏地区做了环境监测,这是80年代做的工作。与此同时,我们还有一个机器人,这个机器人能够帮助我们去看这个活火山的情况,而这对于我们人类学者是上不去的,就用这个机器人去做活火山口的调查,这是非常有意思的应用。
同时在卡耐基梅隆也做了很多关于自动驾驶的测试。我们在80年代中期就开始做了,有我们的Navlab1,那时候还没有电脑,还没有比较大的个人笔记本,只有一个大的工作站,这个工作站会有两到三个微型工作站,那时候就已经是非常先进的工作站了,这个蓝色盒子到目前为止,我们把它称为就像谷歌的自动驾驶车上的自动驾驶模块,那个时候尺寸还特别的大,当时在世界上只有三个做到周围环境的监测,那个箱子就超过了三十万元美商。当时Navlab1就有这样的设备,也是非常靠近我们的卡耐基大学,我们做了这个项目好几年。我们建了这个Navlab实验室,我们做了大量的试验和大量的无人驾驶汽车的项目。
另外我们还有飞行器,大家看这是一个无人机在飞行,在飞行过程中就能够自动的进行绘图,不光是户外进行飞行,而且能够在建筑物之下进行飞行。大家看它现在降低了海拔高度,穿过了建筑物,穿过了屋顶,在它的下面进行飞翔,然后在比较模糊的环境中继续飞行。整个飞行路径全部是自主驾驶或是无人驾驶的,我认为现在的无人驾驶技术已经变得越来越有应用空间,而且我们甚至能够在地下,因为在地下GPS的导航系统一般是没有办法工作的,我们就需要在这些飞行器或者无人机上安装传感器来帮助我们进行定位。我们现在看一个无人机是在地下矿区进行勘探,而且对地下矿区情形做了3D绘图,这项技术在今天已经变得很成熟,同时它的技术成本也变得越来越低。但是我想强调一点,户外的机器人或者智能机器人在真实的户外场景中进行应用,已经不再是想象了,因为我们现在有很多很多的试验已经证明他们的可能性,我给大家再举个例子,在农业机器人的使用,刚刚我在我的片子中讲到的,大多数的无人机或者飞行器都是进行导航,在飞行的过程中他们还要完成任务,一般情况下这样的任务都是进行导航,但是在真实的农业场景和应用中,比如说图片上的这个场景,我们就需要它进行一些高强度和其他的行为,比如说除了导航它还要去对整个植物的情况做勘探,比如我们需要这种无人机或者飞行器去抓取种植物的生长情况,比如说这些农作物长得好不好,有没有害虫,是不是已经成熟了,我们需要这些参数在无人机的信息抓取中提取出来,我们不仅想让他们看到这些植物,而需要植物细节的信息。所以我们还要要求这些无人机和飞行器对植物的成长状态进行分析。实际上人类的劳动是很重要的,而且很多人类的行为是无法被机器取代的,我们的智能系统能做什么呢?我们的智能系统就能够提供一些反馈,这些智能系统和无人机抓取的信息不会损害农作物本身种植的情况,因为由人去采集这些信息的时候就不可避免的会对植物造成影响。除此之外我们还可以看到整个的流程,还有果实的筛选、果实的包装、运输,这一切都是直接把它集合成为了一个智能系统,同时它能够帮助我们提升机器的最终收益。
未来的发展到底在何处?从我个人角度来说,特别在机器人的研发领域,我个人认为现在我们真的应该去设想一下,不仅仅只是想机器人的机制或者传感器或者算法,我们现在要真正关注的是整个集成性的机制、应用和其他技术,如果没有办法真正想到未来的应用,是没有办法做好现有研发的,这就是为什么我们要有整体系统,这个整体系统需要我们进行不断的研发,需要我们不断的前进。我希望大家能够认同我的观点,同时让我们一起携手创造这样的完全系统,能够真正为世界带来贡献,这样我们的人工智能和人工智能系统能够真正成功,不再只是一个口号,最终能够带来一个实际的系统,推动社会的进步,谢谢大家。
孙剑:感谢大家,我从北京来,我相信北京来的朋友应该感受到了航空延误,我中午到的机场,然后取消了,当时有两个选择,一个选择是要不要再改签一个更晚一点的机票,一个是要不要改签第二天早上的机票,但是第二天早上的机票也可能取消,那就来不了,如果改一个更晚一点的话也可能会来不了,事实上是又被取消了,所以我在想,人工智能到底怎么样帮助飞机起落降落这件事情,我觉得这个事情应该比无人车更容易。另外大家都在想智能助理,如果我今天用一个智能助理来帮我做决策,他应该怎么做决策?我想其中非常困难的是他需要知道这个大会非常重要,他需要知道航班取消可能会被再取消,那他到底应该选哪个选择?我当时既改签了昨天晚点的票,又改签了今天上午的票,所以才有可能来到这里。
大家都说人工智能复兴有三大支柱,大数据、计算力的提升和算法的进步。我自己的看法觉得既是也不是,我举个例子,我们做图象识别有一个数据库叫CIFAR,它只有十类,每类六千张,你很难说这是大数据,而且在深度学习之前已经实现了,如果你去看传统方法和深度学习方法,即便在这个小数据上依然可以做得很好,依然可以做研究,今天还有很多人用这样的小数据来研究深度学习。大数据非常必要的因素来深度学习呢?可能不一定是。另外我们看人脸识别,公开的数据库大概就1万多张做测试,我们在2015年做了训练数据库,也是不大不小,就算用这么小的数据,依然可以比以前的方法好非常多,依然可以提升性能,所以大数据是不是非常关键的能研究深度学习的呢?未必。我们再看计算力的提升,人们研究云计算已经很多年了,从搜索时代开始,大公司都有很多万台机器来做这样的计算,为什么当时这么大的计算力并没有诞生人工智能的复兴,如果你再看今天TOP10的超级公司,有没有人工智能是从这些公司中出现的?如果再比较今天的算法和90年代的算法,不管是网络结构还是优化策略和理论上,都没有太大变化。
到底是什么带来了人工智能的复兴?我觉得最重要的可能是计算方式的变革(或复兴),它是从冯诺依曼计算机体系结构到神经网络计算的变革或者说复兴,因为这样的神经网络计算几十年前已经存在了。我们看冯诺依曼的计算结构,基本上有CPU,有内存,把数据装到CPU里面,然后完成计算,但是这样的计算体系结构已经几十年了。它有巨大的瓶颈,在于CPU非常强大,但是传输数据非常慢。如何突破这样的瓶颈?大脑中有着上百亿的神经元相互之间稀疏连接着,可以完成很多计算,但是今天还不理解大脑是如何计算的,但是它真正有可能突破冯诺依曼体系结构的计算,所以这里我就列下了今天在神经网络中计算的最重要三个要素,如果你看神经网络的计算,其中一个是激活函数,表示输入和中间的输出信息,还有非线性单元,分析每个神经元是不是激活,最后是权重矩阵,表示我们学习到的东西和要完成的计算,这是一个神经网络中要完成的计算。神经网络每一个激活向量的元素可以类比为神经元要完成的事情,这也仅仅是唯一和大脑相关的类比和模拟,和大脑不是一回事。一个神经网络基本上是不停完成这样的变换,把一个激活向量变一次,做一次非线性变换,整个神经网络就是不停做这样的变换,就可以形成非常高维的非线性函数。
今天还有另外一个东西叫做GPU,更是让并行计算如虎添翼。这个NVidia是今年发明的,让计算更加高效。在之前的冯洛依曼体系结构中还有一个大家担心的摩尔定律,担心计算量不会再增长了,如果看一下今天这个计算体系结构和计算方式下,计算量的增长,真的是很难想象从去年的10TFLOPS到今年可以做到180TFLOPS,这是非常非常让大家感到振奋的。
新的神经网络的计算基本上有三个非常重要的元素,它要完成数据流的计算,在内存和处理中有非常高的带宽,更重要的是这样的计算方式既整合了学习方式,又整合了推理,最后整个这样的计算不需要复杂的指令,不需要判断,只需要非常简单的向量就可以完成。
有了这样计算方式的变革,计算机视觉到底这几年发生了什么变革?
视觉计算也叫计算机视觉,基本上是研究一张照片和一个视频来我们如何理解这个问题,这是Marvin在1966年的发表,他当时研究人工智能觉得太复杂了,想拆成很小的问题来做,他想研究怎么搭积木,在这过程中研究人工智能怎么做。他自己做了几年,发现这个问题非常难,这个问题从人工智能一开始就存在,到现在还在理解图像问题,我们要理解图像中在发生什么、可能发生什么,这可能是图像更深层次的理解任务。目前计算机视觉领域正在研究这几个大的核心问题,分别是分类检测、分割,对整个图像和图像区域分类。这是计算机视觉过去50年取得的非常多的进展,在2012年之前,主要大家做图像分类的方法是通过这样的方式,是研究员们手工定义一些很好的特征,后面跟上一些机器学习比较强的分类器,这样的东西现在叫做shallow learning,也是非线性计算,要学习的参数是比较少的,另外里面的特征基本上是靠研究员的聪明智慧做出来的,一个是变换次数少,一个是所有都要人工设计。人工智能之后,这种非线性次数变化一定要非常多,非常长,所有参数也要NTN的学习,特征和分类器不再有区分。
深度学习从开始到现在不是一帆风顺的,中间经历了非常多的曲折,今天终于可以很顺畅的训练任意深度的网络。这些网络大多数是用计算机视觉用的网络,从Alexnet到Deeply,到VGG,我们当时想推到一千层就可以了,取了1001层,也是想表达我们对几年前一个网络能到一千层,觉得是天方夜谭。这些年还有一些更新的不同网络结构设计,可以看到一个基本的趋势是,我们做数据计算从特征设计已经很大程度转到网络设计上来。有一个叫计算谱图,左边是计算大的网络,右边是小的网络,有一个研究方式叫做填补空白,但计算量很小的时候,如果你想把网络应用在设备商应该怎么做,怎么得到最好的效果,Face++这周一发出了ShuffleNet,它的计算度目标在10-100M,我们把信息损失尽可能补进去,这是在这个计算项里最好的网络,比如相同计算量复杂下,和之前的相比,要在实际计算量有10倍的加速。
最后一点时间想分享我目前觉得视觉计算比较重要和难以解决的挑战。计算机视觉识别在人工智能里面是这样的位置,绿色是比较好的,红色是比较不好,里面有几个重要的原因,一个是说感知任务可以用神经网络函数,但是有的是很难用一个过程来逼近的,还有一些信号是自然界的是纯物理化的,右边的输入已经是非常智能或者是语言或者概念这样高级的信号,如果你想做得更智能、更高级,有更困难的任务。左边的是我们知道怎么去教机器,右边的还不知道怎么教机器。广义的计算机视觉是横跨感知领域的,它还是一个认知问题。比如这是跟语言相关的,我们说什么是一个椅子?是四个腿靠背能坐就叫椅子?但是很多椅子并不满足这样的描述,反过来说能坐的是不是就是椅子?也不是这样,怎么识别一把椅子是很难清晰定义的,更别说去做这样的事情,所以简单的检测椅子的问题,背后蕴含着更深层次的认知问题。
第二个问题是我们经常看到一些视角,统计学习和深度学习处理这些视角是非常困难的,人为什么能够在这些情况下非常鲁棒,这也是未知的。再就是不同的光照下人是如何用这些非常弱的线索做识别的,如果这些人是你的家人朋友很容易识别,如果不是就很难,这里面的道理我们还不知道。这里面展示了物体检测的困难问题,也就是遮挡,这里面有一个人被挡住了,现在还不能很好的把他检测出来,人体识别是动用了推理、想象和各种非简单的感知技术来做这件事情的。今天我们去建模这样的东西也不能用简单的函数来做这样的事情。在后面的红框是有两个人的,很微弱的信号,但是可以有80%确定这是人,通过观察过非常多这样的场景,识别出这样的场景是什么场景,八成就可以猜出这可能是人,虽然这个信号非常微弱。另外再看这可能是个什么物体,如果有了上下文的话,识别是非常容易的,但没有上下文是非常难的。上下文这件事情是说起来容易但是做起来非常困难的,上下文也跟人的常识有关,有关常识还是一个开放性问题。这是一个视频,这个视频播放起来以后里面有非常多人在运动,大多数人可以把轨迹跟踪出来,这里面人去跟踪这些东西是动用了很多比如对空间的预测,对遮挡的建模,对新物体的识别能力,但是如果用今天最好的算法来做,能做个八成,但是很多人聚集在一起的话,不管任何物体检测都很难把这些做得很好。另外个很重要的问题就是计算机视觉不只是观察世界的任务,而是需要和世界一起交互,在机器人中一个非常重要的问题是如何解决手眼协调问题,这是一个连续的决策问题,当你去拿东西的时候,你需要不停的去做观察和决策和控制运动,这是非常重要的也是非常难的。还有一个挑战是今天跟性命相关的比如说无人驾驶,我们不希望这些不安全。最后一个是我以前做过的Image Captioning,如果图像显示是这样的话,你需要知道这个场景这些人是谁,当时把这些人脸识别和场景识别加了以后做出了这样的结果,大家可以想像这些知识是非常多的,一个一个建是没有办法的。
人工智能非常困难,但是自己很乐观,乐观的很大原因是世界上最聪明的人都投入了巨大脑力做这个事情。这张照片是我自己在年会上拍的照片,这些人有一半是做游戏或者别的非深度学习的,今天这些最聪明的人都来研究人工智能,也包括在座的各位最聪明的人都坐在这里探讨人工智能,我相信人工智能的道路是非常光明的,谢谢大家。
往期回顾|003讲中民国际资本执行董事刘国清-数字化工厂与人工智能
往期回顾|005讲甘中学——从智能工业机器人到智慧工业机器人
往期回顾|006讲长江学者王树新——微创手术机器人技术创新与产业发展
往期回顾|007讲哈工大教授杜志江——国产手术机器人的研究体会
往期回顾|008讲80后博导齐俊桐--无人机智能控制前沿技术
一堂课下潜深海7000米!揭秘罕见黑暗生物链+蛟龙号“龙脑”
1.机器人大讲堂
2.机器人大讲堂走进百所高校
欢迎冠名支持机器人大讲堂公益事业
我们将会为你提供以下服务;
1.产品展示
2.线上宣传报道
3.活动现场宣传
4.领导出席发言
5.人才对接招聘
意向合作,文章转载, 均可联系堂博士电话:13810423387(同微信)。
以上需求均可联系微信:35735796。