本文转载自中国人工智能学会(ID:CAAI-1981)
2017年12月11日,国际知名机器人专家、美国卡耐基梅隆大学机器人研究所所长马歇尔·赫伯特(Martial Hebert)教授和首席科学家大卫·伯恩(David Bourne)教授访问了中国科学技术大学参观中科大机器人实验室并作演讲。
演讲人简介:大卫·伯恩教授是卡内基梅隆大学机器人研究所创始人之一,他在基础研究的同时尤其关注机器人领域的产业应用,比如自动化工业生产线的研发。他同时也是一位成功的企业家,致力于在工业生产中使用自动化技术降低成本。
以下为国际知名机器人专家、美国卡耐基梅隆大学机器人研究所首席科学家大卫·伯恩(David Bourne)教授的演讲实录。
最近我开始教授一门关于机器人和商业的课程。我们有一个叫做“研究和系统开发大师”的新项目,是关于机器人的设计、构建科学与商业的融合。这个项目的目标是让同学们知道怎么开始他们自己的机器人事业。今天我想给各位粗略的介绍下那门课的内容,因为课程中技术应用和商业准则的联系事实上是相当新的,所以我想介绍一下我教授的那些商业准则是什么,以及社会中正在解决的真正问题是什么,这将引导我们机器人研究所的研究工作, Martial之前也提到了。
我有很多头衔, 我是一位机器人研究所的原理系统科学家,而且我也是一名商学院的教授, 我还是我自己公司的CEO。我有这三个不同的身份,而且我对所有这些不同的领域都非常感兴趣。自从1979年加入卡内基-梅隆大学机器人研究所以来,我一直都从事机器人的研究。我从事机器人领域已经很长时间,事实上我是世界上从事机器人领域非常早的成员。对此我非常骄傲,尽管有偶然的因素,但这确实值得骄傲。
我想简单介绍一下匹茨堡。匹茨堡有点像硅谷,只不过我们不做芯片,我们做机器人。早在1984年,华尔街日报刊登了这样一个故事:他们把匹茨堡(Pittsburgh)叫做机器人之城(RoboBurgh)。它真是我的观念中心,是整个世界机器人的中心。现在那里有许多聚焦于机器人的初创公司,如果你对机器人感兴趣,那里正是你要去的地方。在一定程度上,Martial和我到这里来,是试图和中科大以及其他中国大学和企业合作,是为了扩展视野,拓展中美之间的合作。
我在班上教的一些基本理念,我真的想教技术人员和工程师一些基本的商业理念。当工程师听到这些想法时,他们常常会有点恐慌,我想是因为工程师们不喜欢对商业考虑太多。当我们现在谈论商业时,让我们面对它吧,商业真的是关于真实价值的——卖东西,制作别人想买的东西。所以我的想法是,你应该只制造那些有些人准备去买的东西。你绝不应该制造放进仓库的东西,而人们只是在旁边看看而不买。这是一个不同的制造模式,不同的生产模式,它将改变我们在这个新世界的生活方式。我对我教给学生的东西很感兴趣,我对一切可以变成一门生意的机器人技术都感兴趣,确定一个项目的哪个方面适合一个产业,这真是一个伟大的挑战。
如果你开始和学生谈论他们可以从事什么行业,经常想到的是,我可以在我的产品周围建立这样一个巨大的生态系统来做所有的事情,比如苹果的生态系统,包括iTunes上的智能手表和苹果的生态系统的所有不同方面,这就是生态系统。但是怎样分辨你可以卖给别人的元产品真的是一个挑战。如果你想成为一个企业家,你需要能够把你的项目变成某人想要买的东西。这是这门课的精华之一。其中的新概念是相对较新的,它叫做最小可行产品(MVP Minimum Viable Product)。
我今天在你们大学的机器人实验室里看到了一些演示,它们很棒!但是你会从那些奇妙的项目中选择什么呢?把它变成一些很简单、人们想买的东西,人们愿意付钱,达到了他们的要求,并且愿意拿出钱来支付的产品。因此,关于什么是本质,什么是最小的、可行的产品,这是一个巨大的挑战。所以这门课的一部分是教人们从他们的项目中辨认出他们能自我扭转的元素。这就是商业与技术融合的理念。然后我们要谈到科技人员和工程师们担心的一个问题,那就是他们将如何获得最初的资金来开始开发。所以,我们实际上教如何获得风险资本的投资,以及如何建成一个小公司,然后他们可以发展起来,变成一个真正的企业。
你知道机器人的数量将要爆炸,但它不会突然闯进我们的生活,也不会有一个机器人走进来,像电影里面那样。机器人将会从细微之处进入我们的生活,以我们几乎不会注意的方式,而它们的数量将以指数级加速增长。所以在几年之内,你环顾四周,将会意识到你被机器人包围了。你知道这是一个非常独特的时间点,有这么多技术的发展是如此之快,它将改变一切。我们正在迅速进入一个无车驾驶的世界,我们谈论的无人机正在飞去搜集信息, Martial之前展示过这些。
数字助理。每个机器人研究人员都沉迷于让机器人在各种事情上帮助人类的想法。当我进行一个制造任务的时候,如果有一个机器人助手在身边提供各种正确的工具,或者当我执行一件特殊任务的时候提供指令,那就太好了。将来基本上每个人都会和数字助理协作。这种需求随着我们变老也在增长。我告诉我的学生,我对变老的幻想是有一种永远不会恶化的能力,因为和机器人在一起生活,当我开始失败时,有外部疾病或者虚弱时,机器人会逐步接管我过去能做的事情。基本上,我的信心不会降低,因为机器人会使用这些技能帮我做事。例如因特网,我们致力于在网络上建立交流。有一个想法是这样的,现在我们珍视的诸如搜索引擎谷歌、雅虎,在静谧的世界搜寻数据,能不能当你问“我的车钥匙在哪里”时,数字助理在现实世界中像在互联网世界中那样完成搜索。这正是我们正在讨论的,真实世界和网络世界的区别开始变得模糊,开始变得我们几乎无法区分它们之间的不同。当我们看到增强现实的应用,这种趋势将会越来越清晰。
大规模定制。人们梦想的其中之一就是想出一个设计并且实现,且我们可以在一定程度上与部分塑料件和配置某些种类数量非常有限,但我们的目标是能够与许多材料打印的东西,和打印速度更快,其实如果有人做过3D打印的话会觉得它很慢。嗯,如果你想打印任何尺寸的东西,你会觉得有点泄气,将要花费六小时八小时的印刷时间。我们能够做到这些,使用非常有限制的塑料零件和某些种类的配件。但是目标是能够使用各种材料打印物体,用快的多的速度。如果你做过3D打印的话,就会发现它实在是太慢了。当你打印任何尺寸的物体时,都会占用6到8小时,这实在让人有点泄气。当你真正去做的时候,它并不像听起来那么令人激动。因此,一个新的商机就是在使用3D打印的基础上进行开发,这样我们可以开始新的业务。
深度学习。深度学习确实带来了极大的改变,增加了机器人的智能水平,达到机器人之前从未达到的水平。所有这些技术一下子涌现出来,所以我说这是一个激情的时代,在这里有机会让我们拥有自己的公司,成为像比尔·盖茨、伊隆·马斯克那样的亿万富翁。在历史上,这就像是一个难以置信的时代,我们将这些想法变成商机。但是技术已经基本成熟到实现这一切。因而你们都可以开办自己的公司,并成为一个特定商业领域的领导者。
无人驾驶。这也是一个有趣的例子,并且这个技术发展是最快的。当你想到无人驾驶时,你会意识到这是一个巨大的商业机遇——令人震惊的,有11亿辆汽车在路上奔驰,考虑一辆车平均价值3000或5000美元,这是一个数兆亿美元级别的市场,真是太大了!另外一个事实是,人们不久就会发现,自己驾驶汽车比不上自动汽车,因为自动驾驶更安全、更快。我们的政府基本上都认为,大部分驾驶应当是自动的,这确实是很快就会发生的,出现在你我面前的,数兆美元的机遇,并且你们大多数人都能够直接参与其中。不单单是汽车,嗯,确实是不仅仅是汽车,还有汽车的里面,我们乘坐的空间。我们不是为了驾驶,而是被运送,因而展开想象,怎样设计车里的娱乐系统。
你怎样保养这些车?比如在行驶的路上,不好的事情发生了,后座上只有一个五岁的孩子,他无法更换轮胎。怎样维修这些车,有一整套的商业机会。怎么给车加油呢?当我们谈论机器人开门是多么困难的时候,我们很大程度依靠人弄清如何打开盖子。相比把东西放进去,开油箱更具有挑战,有太多不同配置的车辆和加油方式。因而这里有很大的标准化需求,而加油几乎一定要自动化。其他所有生意,不仅仅是无人驾驶,是说有围绕它的一切,是所有围绕它的一切。公共交通,同样的,一个大生意。娱乐。
当我们要出售汽车时,我们必须思考卖给谁,谁有坐在无人驾驶汽车的需求。事实证明,只要你认真思考,就会发现不同的年龄组需求不同。如果考虑到年纪很大的人,他们应该需要特殊的服务,譬如帮助他们上下车。针对老年人,以驾驶汽车和帮助他们到达需要的地方然后帮助他们下车是完全不同的事情。所以如果考虑为老年人准备的车辆,整个想法完全不同了。当然这里有一个特殊的年龄段,想象一下你在10岁或15岁的时候,要去参加一个重要的会议,你确实不用担心,即使你正在通话,正在和一个同事交谈,这些都没有问题,只要你没有驾驶汽车这种额外的事情。你只是想去上班,确保准时,把你的生活,嗯,每一天都确切地完成你的职业生涯的工作。所以这种情况,我不认为销售(无人车)是一个难题。有一个,我跳过了这个。这是个有趣的年龄段,65岁左右,他们喜欢开车。事实上,当我和父亲谈论这些的时候,他告诉我,除非有人拿枪威胁他,要么下车,要么死,否则没人能拿走他的车。他说那是唯一能够让他下车的方法。事实上在他的最后的几年中,他失去了部分的心理机能。但他极端重视独立,驾车的想法是如此重要,以至他每天在车上坐一个小时,不去任何地方,仅仅坐在车里,让他感觉自己是独立的,可以控制自己的生活。这是多么重要。这是一个特定的年龄组,不单单意味着去某个地方,不仅仅是交通。必须考虑人们的身份,因而有这个群体,这个群体必须用不同的方式对待,并且每一方面都是不同的商机。16到25岁,嗯,这个群体对牵引力感兴趣。实际上我在课堂上介绍这些的时候,他们也有这种想法。一个学生说他有一个想法,“我们在高速公路上以100km/h的速度行驶,如果可以和对方对接,我可以进入旁边以速度100km/h行驶的车,这不是很酷吗?我们甚至可以在汽车顶部开舞会,我们可以出去跳舞,在以100km/h行驶的车队上举行一个舞会。”这是一个疯狂的想法,但是它也许没有那么“疯狂”,可能将来所有车都是无人驾驶并可控地接近对方并对接,就像人们在火车上从一个车厢走到另一个一样。但是,嗯,这几乎超出了我们的想象,这是一个新想法,16到25岁的年轻人会有这样疯狂的想法。再考虑5岁的孩子,当你想送他们去幼儿园或者其他什么地方,你会怎么做,你会让他们乘坐这辆车吗?对5岁的孩子来说,如同老人一样,需要有很多特殊的服务。对非常年轻的人,这里面有太多不一样的事情需要思考。
正如后面显示的,美国交通部将驾驶能力分成5个等级,从L0到L5。我不准备详尽介绍这些,不过L0是我们现在驾驶的,没有自动驾驶,人们自己驾驶的。L5是完全的自动驾驶,可以控制任何一个“疯狂”的情形,包括大家知道的龙卷风或者飓风。你知道的任何情况下,自动驾驶汽车都可以比人类处理的好,这就是等级5。事实上最近,三天前,埃隆·马斯克已经讲过两年之后,特斯拉将会拥有等级4的汽车,这意味着在晴朗天气下自动驾驶汽车可以完美的驱动自己,如果没有什么可怕的事情发生,不考虑极端天气。特斯拉将会拥有等级4的自动驾驶汽车,这确实是非常快的。从商业的角度来看,我们正当时,因为十年后,我们会发现,机会已经过去了,那时就太迟了。在两年后的这个变为现实之前的现在,正是我们考虑这些生意的时候,这绝对是最令人激动的时刻。
不得不说,这不是人类、女人或者你知道的某个人,比如Martial或者我,对未来会发生什么的臆想。在为什么需要无人驾驶汽车这个问题上,有一个非常现实的原因。去年,在美国有四万人死于车祸,四万人啊。想象一下,这是多少人,仅仅是在美国,我想仅仅是车祸,在世界上有125万人死去,每一年都是。我们知道,死亡人数都不能很好的表述这个损失,还有很多瘫痪的人、腿部骨折的和各种创伤。因而,每年都有巨量的人因为直接死亡或者在车祸中失去生理功能。我们相信自动驾驶可以减少90%的应发车祸。无法消除所有死亡,仍会有人死于车祸,但不在是4万人,也许只是4千人,这是很惊人的改观。因而当政府听说这个,并相信这是真的。他们基本上会规定有人驾驶汽车是违法的。这有点令人难以置信,因为突然间,你只有有非常特殊的原因,才能够获得驾驶执照。这就像你必须成为一个飞行员,不只是一天测试,你必须相当像一个美国航空公司的飞行员来驾驶,因为那里有太多的交通规则你需要遵守,和自动驾驶汽车一起。这不是普通人会做的。这会很有趣。
这些死亡的一大原因是分心。事实上,我不知道你有没有关注你邻居的车,当他们开车去工作的路上。但是至少在美国,我看到过,一些女士在车里化妆,或者喝咖啡,并且调整她的镜子,当手机响铃时,准备接听,或者发些短信,不得不用一只手化妆,在做一切事情,除了开车。所以,想象一下,如果你前面的车来个急停,就会发生事故。这也不是故意的,但会是一个事故。每个人都能意识到,美国各州规定驾车时发短信非法,但是没有阻止人们。但是规定这是违法的,开车时拿手机是被定为违法,但是这是违法的,也不能阻止人们。我想尽管我不知道中国的法律,但是不会惊讶它们是相同的。
自动驾驶汽车变为现实的时候,人们没有必要拥有自己的汽车。我们基本上是购买一种“订阅”服务。为什么呢?自动驾驶汽车会满是传感器,这些传感器在路上观察,就像马歇尔展示的那样。他们必须有效,这不是你可以推车来发动汽车,或者做各种技巧让汽车正常行驶。它必须完美的工作,必须。因此每天早晨汽车出发前,这些传感器必须要检查。顺便说一下,这也是一个新的商机。在上路之前,这些传感器必须经过检查,以确保所有都符合汽车的设计要求工作。这不是我们要对自己车子做的事情。它不是像,我说,哦,出了什么事情,需要我的聪明才智来处理一下。如果想被信任,计算机必须正常工作,传感器必须正常工作,一切都必须正常工作。因而我们不准备拥有汽车,我们“订阅”它们。例如,我们将有一个模式,也许一个订阅服务,我们付钱,它保证两分钟内来接我们。或者如果我们付更少的前,也在半小时内接我们。因此,我认为拥有汽车的这种想法会很快消失。我们仅仅只是在汽车里,我们可以拥有它的模型。举个例子,你有特殊需要运送什么,我们可以买一个行李箱。当你的车到达你家时,它会自动拿起你的行李箱,在一个特殊的,适合汽车的容器里。这很有意义。想象一下,你有一个轮椅,如果汽车足够灵活和模块化,可以拿起轮椅模块,然后开走。因而,如果你有特殊的功能残疾,这是合适的车辆。将来仍旧会有人自己开车,但是那更像是骑马一样。将来的景象是这样的,可能仍旧有人喜欢自己开车,但那只是一种爱好而并非必须要开车。在这里就有一个商机。
无人驾驶并不是单纯在于单独的一辆无人驾驶车辆。我之前一直在讲一辆车,但无人驾驶的便利并不来源于单纯的一辆车,它源自于马路上的所有车。许多事故发生的原因是这样:你正在路上开车,一个动物从你的前方跳出来。你正在为及时刹车送了一口气的时候,后面的车撞上了你。当我们进行无人驾驶的时候,在行驶过程中,我们需要和后面的车辆一直保持通信。我们刹车的时候,紧跟在后面的车刹住了,它后面的车也刹住了,就像火车一样,所有车都能自然的停下。这些车就像一个整体一样。车辆之间的这个操作系统,就是一个全新的商机。商机如此之多,前无古人。提到道路的容量,我听到有很多人抱怨过诸如:上海的交通真是太差了。这样的话如果存在车辆之间实时沟通的技术,车在行驶的时候就能离得非常近,那么现有的高速路的承载力就能加倍。这让我们在使用现有的交通设施的同时可以容纳更多的车辆,为政府节约很多的钱同时还刺激了这个技术的发展。所有的行业动态对此都是深度赞同的,无论是从经济角度,还是从安全角度。
谈到商业化,在我的课上,我会对同学们申明,尽管无人驾驶很酷,我不想在座的各位去开一家这样的无人车公司。和丰田、梅赛德斯(奔驰)等这样的现存汽车公司去竞争是毫无意义的。你要做的是将它应用在次级商业(secondary business)领域,跳出车本身的约束,应用到无人车的商业生态系统里面。因为,无人车的运行环境和我们当下的车的环境是大不相同的。例如,很容易想到,运用无人车实际上并不需要红绿灯或停车标识,诸如这些和司机交流的手段都不需要了。甚至街灯,无人车不需要街灯,路牌和指示,因为车之间能够进行高效的沟通,和其他的车一起优化自身的行为。这就是我想说的什么是次级商业,什么是次级商机(secondary opportunities)。我的课上的一份作业就是,让学生们列举一些次级商机。
目前为止,我首先介绍了 minimal viable product。然后介绍了第二个关于从商的思想是考虑次级商业。刚过去的这一年,学生列了一个关于secondary robotic的清单,大概有50条,我这里只列了一些。我不会全部介绍,大家可以看第二条,很有意思,自行车如何和无人车进行交互,以保证骑车者的安全,这是一个次级商业。基于丰田,特斯拉,梅赛德斯奔驰,通用这些公司都会遇到很多的问题,需要配套设施设备的假设,在次级商业领域有着非常多的次级商机。想想怎样去赚钱吧。
这是一个关于如何寻找MVP的例子。一个学生意识到,对无人车来说,车上的所有的传感器都要标定。比如,我们有立体的摄像头用来测量和行人的距离,还有激光传感器也会测这个距离,它们的结果必须匹配。如果它们都不匹配,它们就是没标定好。它们就不能告诉你相同的信息。当一个子系统告诉你一个结果,但另一个子系统告诉你另一个结果的时候,你就无所适从了。所以标定是一个大商机。知道如何标定远比检测标定结果好坏要难。而标定的工作又是大家都需要的。所以学生就想出了这个方向:无人车上传感器的标定。这是一个大的方向。然后学生就开始想,标定需要有能自动标定的维修车间,各种各样复杂的东西。但假设,你非常简单的东西,有个硬件能检测标定的效果。它不做任何标定的工作,它能做的就是评价车是否被很好的标定了。这是在找一个最小规模(minimal)的,但可行(viable)的东西。你只需要一个小盒子,同时检测车上所有的传感器,判断它们是否标定好了。如果你有了这样的设备,车颠了一下,传感器错位了,你就能知道它们标定结果出问题了,这时故障车就可以安全的被从路上拉走了。如果你做出了这么个东西,那么可能政府就会说,如果想卖无人车,所有车上都安装这个小盒子。为了无人车的安全驾驶,你必须要这个标定检测装置。这就是MVP。那么所有厂家想卖无人车,都需要买这个检测装置。这就是我们寻找的三个字的,MVP。如果大家听了这次演讲后理解了这三个字,这就很好了。
人们有很多理由不用机器人技术,我们真的很担心,机器人有一天会代替人类,这很恐怖。很多手工业者将要失业,无人驾驶和货运,实际上会代替大量人力,这固然很好,但毕竟有人以此为生。我也说过,我们并不一定要照着那样走下去,可以设计一个人机共同工作的系统,我也在朝着这个方向努力。机器人如此优秀,就产生了很多问题。就像AlphaGo,经过4小时的学习,机器的棋艺就比人高了。没有预先写入的知识,程序学习到棋艺就能超过人类,仅用4个小时。无怪乎人类会担心被机器人全面超越,这是另一个我们需要关注的事情。人类目前到达进化的终点了吗?我们就这样了?我想答案显然是不,我们发展了机器人的同时,人类自身也在发展,人类工作的方式也发生了改变。(举起手机)这已经成为了我生活的一部分,这听起来很蠢,但是你有时必须把它从口袋里拿出来然后这样(对着看),没错吧,这已经是我的一部分了。或者,我们可能将来不再需要手机,这个小盒子可能以后就消失了。但是我们不会放弃它的功能不用,我们只会放弃小盒子的躯壳。我们的未来的产品可能会在放弃手机的外壳的同时,保留手机的功能。这确实令人兴奋,人类会和机器一起进化,你可以通过一些植入式的设备来像通过看手机一样获取信息。
我有时也会听到一些人说:我可不会用这种设备。但说实话,在你们这个年龄的时候,我也从来不认为人会去纹身,这太蠢了,现在你看看周围,有这么多人身上都有纹身。人们终究会接受这些,也许你不会,但也许你的孩子会。人会进步,数字设备将成为人生活的一部分。如果你觉得我瞎说,看看你用手机是多么的频繁吧,这已经是你的一部分了。你的孩子会接受这些,然后因你不接受这些,嘲笑你是老古董。
所以这里列出了人们的担心,公众的接受程度、恐惧;自动化的代价;法律诉讼的风险;技术的可靠性等等。这些担心都能对应着有利可图的商机。这些担心的一种一个核心是对于失业的担忧,我对此很感兴趣,而且想把这些反映到我的机器人研究里。富士康,是生产iphone的厂家,有130万工人,很多是中国人,来自全国各地。它的CEO公开说,他希望解雇100万个工人,用机器人代替他们。有100万人将要失业。所以,当机器人将人的工作替代的时候,人类员工该何去何从,这不是一个笑话,而是我们要思考的事情。我认为,我们应该在问题出现之前就开始寻求解决方案,而不是等到人们都失业了再去解决失业问题。我们必须先发制人的在设计机器人的时候就考虑人类员工的失业问题。McKinsey上周的研究报告预测,到2030年,全球会有4-8亿人因为自动化的进程而失业。另一方面,他预测了未来的岗位存在严重的两极分化。有一部分人仍然有工作,仍旧被社会需要;这部分人将占据有大量薪水的岗位。因此如果我们还像现在这样,这部分人和其他不被需要的人间就会存在严重的两级分化。这不是我想看到的。但这有另一个解决办法。
让我来介绍一下我研究的一个焊接任务,人与机器人协作,完成非常复杂的定制焊接任务。我做的测试是这样,我让一位专业设计师设计了一套全新的叫空间构架(space frame)。这个架子可以作为吉普车的框架使用,只是它没有两边的车门,这是一辆汽车的基本结构,我们让设计师做出了一份个性化的设计。然后我们分别让两组人来实现这个设计。左图展示是三位专业焊工组成的一组,他们整天干的事就是焊接车子。他们有价值百万的专业设备来帮助他们完成这个个性化定制方案。另一侧的人是Mike,我的学生,和装配有专业设备的ABB机器人。Mike和机器人与三个专业焊工比赛,制作一个自定载具的框架。右侧的是人与机器人协同工作,这代表着我期望中的未来场景 VS 左侧的纯人工工作。这个视频说明了他们要做的是哪个部分,这是一个个性化定制的车,视频中它正在沙漠中行驶。我们要组装的是绿色部分,它是一个框架。这个框架有100个立方体材料和400个焊点。这个框架很大,大小和我们前面的这张桌子差不多,有大约10英尺高。这个真的非常非常大。首先,我们需要明确,机器人擅长什么,而人擅长什么。我们这次做的测试实际上是改变之前的法则。通常情况下,在机器人领域,我们的工作是让机器人尽可能的做全部的事情。而我们现在想做的是探索人能做什么,机器人能做什么,他们二者各擅长什么?我们想让他们做各自擅长的事情,尽快的完成任务。
所以,请大家花时间思考一下,机器人真的擅长什么。如果你问一些媒体的人,他们会告诉你是物料搬运(操作)。 事实上机器人在这方面极其糟糕 你有看到过机器人做这个吗(转手机),甚至是Hebert教授的机器人?我还能闭着眼做这个。没有,他们做不到。原谅我的冒犯。另一方面,Mike很擅长物料搬运(操作)。如果你让机器人移动到一个确切的坐标,他能迅速而准确的到达;给定x,y,z空间坐标,三个自由度的朝向坐标,机器人就能刷的一下在一秒内完成。同时他的精度也是毫米级的。这是ABB机械臂的精度。如果让mike来做,他会很困惑,然后说,他的测量工具在哪。画上一个多小时时间,最后得到一个模棱两可的结果。他是我学生,但在精确操作和测量方面非常差,完全比不上机器人。所以如果你能造出这样一个系统,将二者的优势融合,做出一个融合系统。我们通过任务分配,让人和机器人各自做自己最擅长的事。我之前说了,这是在你的实验室里。我们通过视频教人该做什么,我们自动生成了一个视频来引导人该做什么。这一部分实际上就是教Mike他要做什么,该怎么做。另外一边,机器人在规划工序上非常擅长。这件工作总共有400个焊点要操作,机器人可以规划出最优的序列,并判断这道工序是否由机器人完成。如果机器人能做,那就让机器人做,然后进行下一步。如果你它很难做这到工序,它就让Mike做,告诉Mike该做什么,通过视频来指导Mike一步步该怎么做。是不是很酷。
所以机器人的底部由这三个单元模块,生成信息指令指导Mike应该做什么,信息的格式如右图所示。假设Mike想要将一个部件放到一个特定的位置,机器人可以告诉人这个准确位置,它有标定好的发射器,给真实环境添加信息。这样Mike可以小心的在这里焊接。与此同时,传感器能告诉机器人,Mike实际上在什么地方工作。机器人就可以定位这个地方,对自己的程序进行调整。这样即便它自己运行时偏了3mm,它也能修正自己的位置。这个视频里展示的是安装的过程。你们知道事实上焊接过程机器人要用时多久吗?事实证明机器人焊接一个焊点大约是5秒。但机器人需要花费20分钟来完成安装过程,将工件摆放在预定的位置上。这样的话,你可以迅速完成安装的过程,这样就可以大幅缩短工时。这个视频里显示了Mike做他工作的速度,机器人一步一步的告诉Mike他要做什么。机器人做一部分工作,然后让Mike做一些工作,并告诉他怎么做;直到任务完成。
然后我们可以得出这样的结论。左边这组人是三个有特殊设备的专家,和右边这组是Mike和机器人。左边这组,三个人,每小时工资75刀,材料费400刀,乘以89小时实际工作时间,总计6850刀,事实上他们的要价是25000刀,他们不知道我们把他们的工作过程录像了,所以开了很高的价。但我们给他们看了视频,说他们只干了89个消失。所以最后就是6850刀。右侧是Mike,他和左边做的事是一样的。一个人,每小时工资75刀,材料费400刀,然后在开始工作10个小时后,Mike以他世上最灿烂的笑容来到了我的办公室,跟我说,“David, 我搞定了。我只用了10小时就完成了同样的工作”。他总计是1150刀,这意味着如果你不用纯人工的话,你可以用那笔钱买下6组人机协作的系统了。事实上这很值啊。
结合了人和机器的长处,你可以搭建出一个效果更好的系统。这也就意味着,如果制造业里大面积运用这样的系统,其实将增加工作岗位,我们人类自己在制造业界为自己增设岗位。我们不想让人们忘记怎么工作,如果我们放弃和机器人协作,并成功的开发出了让机器人完全替代劳工的技术,我们将要遗忘如何工作。这不会使情况变好,当某天机器人出问题的时候,我们不知道怎么修复它。这不是我们想要见到的。与此相反,如果我们能和机器人分享工作,则可以减少失业人数。
总而言之,我认为人和机器人协作的这个系统有实际作用,好的让人惊异,有巨大的潜力。他们一起工作能加快工作进度。这个系统能够最优化任务分配,而不是由你自己来猜任务的分工。所以我常跟别人说,机器人才是老板,它告诉你一步步该做什么。Mike应该因此受好评。这个设想与现在的做法在未来产品分配上有根本性的区别。
我们只有在群众有购买需求的时候,才会做相应的产品。我们将来不需要仓库,不需要这些大型的基础设施作为中介,将产品发往世界各地。我们只需要将小型的制造设备运往想买的人哪里即可。这是其一。如果你能做点什么,比如你自己做一个复杂的框架,这是一件让人很有满足感的事情。你可以在你的地下室建一艘船,这是一件你可以想象的最有满足感的事情。当Mike来到我的办公室,告诉我他成功了,那一刻他是这个星球上最幸福的人,他觉得自己完成了一件不可能的事情。如果你能创造一个个性化定制的东西并且对它着迷为它骄傲,这真的是一件让人们觉得幸福的事情。然后你又再一次尝试构建这样的系统。
好吧我要结束了,让我们进入到问答环节。我回顾一下讲了什么。我首先简短的讲了一些我的课上的内容(MVP),然后说明机器人是怎么导致失业产生的,最后提出了我的解决方案。以上就是我想要说的。非常感谢。
(以上演讲由张夏禹、程湛、崔国伟、陈广大、帅威、张泽坤整理翻译,帅威、张泽坤校对。)
本文转载自人工智能学家(ID:AItists)
来源:中国人工智能学会
2017年12月11日,国际知名机器人专家、美国卡耐基梅隆大学机器人研究所所长马歇尔·赫伯特(Martial Hebert)教授和首席科学家大卫·伯恩(David Bourne)教授访问了中国科学技术大学参观中科大机器人实验室并作演讲。
演讲人简介:马歇尔·赫伯特教授是国际计算机视觉和机器人研究的领军学者之一。自从上世纪八十年代加入卡内基梅隆大学机器人研究所以来,他参与和领导了物体识别、场景重建、智能机器人等领域的多项重要研究,取得了一系列突出成就,担任了《国际计算机视觉期刊》(IJCV)等多个领域内顶级刊物的编委。
以下为国际知名机器人专家、美国卡耐基梅隆大学机器人研究所所长马歇尔·赫伯特(Martial Hebert)教授的演讲实录。
人工智能的前沿技术与实例分析
(The Advanced Technology of AI and Case Studies)
大家下午好!很高兴能来这里,谢谢能给我做这个演讲的机会。今天,我将要介绍卡内基梅隆大学机器人研究所中进行的研究的主要方向。我希望能让大家了解我们研究的关键方向和尝试解决的核心挑战。首先,我将说明机器人学,尤其是机器人学的应用,指的是什么。基本上,我们尝试着眼于工作、科学和生活的所有领域中机器人学的应用。
现场机器人学,这个领域中机器人代替人类完成危险或困难的工作,像建筑、采矿、农业等等。建筑业中,机器人和人类合作实现更快更好的建筑任务。我的演讲之后 Bourne 将详细介绍这一部分。运输和物流业中,自动驾驶汽车等设备在改善交通运输。医疗机器人领域,机器人和人类一起工作。还有基础设施监控领域。我们考察所有这些机器人应用。
让我展示一些例子。这是从事采矿和设施部署的自动驾驶卡车。这是可以组装和拆卸物体的操作系统。这是另一个大型项目,完成飞机检查、喷漆和去漆任务,这些任务需要非常大的机器人相互协作。这是一个更加复杂的机器人,具有操作、局部运动、感知等功能,可以完成在这种环境中的复杂任务。以上例子向大家展示了我们为了领域中多种多样的应用场景建造的机器人系统。
今天我希望能让大家对我们为了建立这样的机器人系统而进行的研究有一个认识。这些研究可以被分为这些类别。在底层,我们关心机器人的硬件构造,以及如何进行控制,这部分称为动作(action)。在现实中,机器人的硬件构造只是我们研究的一小部分。其他大部分研究中我们关心机器人的智能,而不只是机器人的硬件结构。这包括了机器人的感知(perception),也就是机器人利用传感器感知和理解环境的能力;机器学习(learning),即从数据中学习模型的能力,机器人可以学会如何移动、观察、决策;自主性(autonomy),即自主决策和对环境做出反应的能力;最后,是人机交互(human interaction)。很多机器人需要处理的问题都是和人而不是和机器人相关的。它们需要理解人类行为,并和人类进行交互。这是机器人学中发展最快的研究领域之一。我将展示在以上这些领域中我们基础研究的主要方向。
首先是机器人运动部分,即机器人的硬件构造和控制。我们主要关注三个主要的领域。第一个是让机器人可以和人类一样完成非常复杂和精细的操作。这个例子是机器人展示一个没有应用价值的操作,但是它展示了这个操作的难度。这个任务需要对机器人控制和硬件的物理性质有极高的理解。这些关于机器人精细操作的研究是一个很大的研究领域。
第二个领域是设计能在困难的环境中完成任务的机器人。这是我们仿生机器人实验室(BioRobotics Lab)中的一项研究,一个可以像蛇一样运动的蛇形机器人。这个机器人可以像蛇一样运动,完成一些复杂任务。这项技术可以用于环境检查、制造业、救援等场景中,机器人可以进入一些十分复杂的环境中。最近墨西哥城地震后,这个机器人参与了对损毁建筑的搜救工作。这个领域的研究有很多应用。在这个领域的研究中,如果我们可以设计出非常精妙的机器人结构,我们就可以制造出非常多有趣的机器人,它们可以应用到很多领域当中。想象一下,如果缩小机器人的尺寸,小到它可以进入人类的身体当中,就可以造出这款机器人。背景中的搏动是心脏的跳动,这个机器人正在心脏上方爬行。上方的图像是机器人的相机看到的场景。我希望这对大家来说并不是太血腥。这是我们对机器人学研究的看法的一个例子。我们从多自由度机械结构这些基本概念出发,将它们应用到各种各样的应用场景当中,最后建成完整的系统。这款机器人已经得到了商业化应用,并已经获得了在手术中应用的许可。匹兹堡大学的一个团队已经使用这款机器人完成十分复杂的手术,如癌症组织的切除。这款机器人可以在不进行切割的情况下完成手术,这是手术技术很大的进步。以上就是我们工作的第二部分,设计具有精妙结构的机器人,来完成现在完全无法完成的任务。比如在不切割的情况下进行手术,搜救,检查等等,这些任务现之前是无法完成的。
机器人运动中的第三个研究领域是机器人的模块化,和机器人的重新组装。这在实际中是在机器人研究中取得进展的一项主要障碍。像在制造业中,为了某个特定应用场景设计机器人时,需要花费大量成本和努力来对机器人进行设计和编程。完成之后,如果需要对机器人生产的产品进行一个很小的改动,整个系统都需要进行成本很高的重新设计和安装,显然这是不符合可持续性要求的。除非有大量的资源和人力,这并不是一个合理的方式。解决方案和软件设计中的设计模式类似。在软件开发中,我们可以从软件库和模块开发十分复杂的应用程序。我们希望从机器人模块出发实现类似的事情。这些红色的部件都是机器人的一个模块,包括了硬件和软件。当我们将它们连接到一起时,它们可以互相通讯。可以对它们进行十分快速的编程,所以可以以很快的速度搭建机器人系统。这是一场革命,正如 60 年前软件行业放弃从头编写程序的工作模式,开始从软件库和模块开始构建软件一样。这其中的挑战是模块不再只是软件,而也是硬件。这是一个应用的例子。这段视频展示了在不到30分钟的时间内搭建一台全功能的物体操作机器人并对他进行编程。这就相当于从现有的模块开始快速完成编程。此前这对于机器人来说是不可能的,因为机器人的硬件结构。这也是我们关心的一个大的领域。将这些想法和其他一些想法结合(其中一些之后 Bourne 会在机器人协作制造业中为大家介绍),我们建立了一个新的高级机器人制造研究院。这个研究院关心如何更加灵活地使用机器人,比如如何快速重组机器人系统,让机器人和人紧密协作。以上是机器人硬件结构和控制领域。
我们希望制造智能机器人,而智能的一个重要组成部分就是理解环境的能力。我们在机器人感知领域有一个很大的团队,关注 4 个大的核心方向。第一个是环境理解和物体识别。这是一个自动驾驶的例子。左边是输入视频,右边则是对视频内容的理解,每个不同的物体和区域用不同的颜色标出。为了能让机器人做出智能的决策,对环境有着尽可能详细的理解十分关键。
你们可能对深度学习技术十分熟悉。过去几年中,这项技术是革命性的,而且正在快速发展,多亏了神经网络,机器学习,深度学习技术。这项技术的一个关键问题是它需要非常多的数据进行训练。而在有些人期望的场景中,如交通信号或者区分这个物体和那个物体,设计这个系统的方法很有限,而且很难扩展,很难真正的适用于实际场景。我们想做的是使用非常少的样本训练出识别的系统。例如,当我在能识别这个物体之前,我不需要看关于这个物体的上百万个样本。我只要看过这个物体一次,今后就能认出它。怎么在计算机视觉,在感知中做到这些,是我们的一个主要研究方向,也是一个现在面临的主要挑战。
之前我们讲的识别环境,理解环境是感知的第一个关键领域。下面我要讲述的另一个关键领域是时空重建。时空重建意味着,你能通过一系列传感器数据,尽可能精确的重建出世界模型。这里的例子, 用的是三维点云,这实际上是一座桥,有一个飞行器从桥下以一个自然的速度飞过。这里的挑战是,重建精确世界模型的系统需要越简单越好,越便宜越好,越小型越好。用一个价值百万的非常复杂的传感器系统来做这些是没什么应用价值的,而这里用的是一个非常便宜的无人机计算出来的。这是另一个自动驾驶的例子。自动驾驶中的一个关键问题是在没有 GPS 的情况下,只从传感器数据,实时的,尽可能精确的进行定位和建图。这是一个汽车以大约 100km/h 的速度在匹兹堡的街道上行驶的例子,结合激光数据和视觉数据,进行一次非常精确的重建工作。这是一项最新技术的例子。这家无人机以 60km/h 的速度运行,这里的重建是实时的,在飞行中重建出了当时的 3D 环境。
上面是我们的 60km/h 速度的实时 3D 场景重建技术,它被用在无人机控制中。和静态 3D 场景重建相比,更具挑战性的是动态场景的重建。场景是动态的,动态指的是场景里的物体是运动的。这里花费了我们很多的精力。这是一个全世界独有的设备,叫做全景工作室(Panoptic Studio)。图里面的你能看到的每一个黑色小点都是一个摄像头,在这个穹顶当中有 500 个摄像头同时对场景进行观测。这是一个示例场景,现在有很多东西都在运动,我们有这个场景的 500 个不同视角的同步观测结果。从这些观察数据中,我们不仅能重构出这个场景的三维结构,还能构建出更细节的东西,场景中物体的瞬时动作。这里面的每一个轨迹都是场景中每一个特征的运动轨迹。可以看出,我们重建的非常的精确,场景中的任何物体都被构建了出来。Facebook Oculus 的Oculus VR 就是受这项技术启发开发的。
以上我们展示的是固定在实验室中的固定摄像头。我们还可以使用来自网上的视频。这是一系列拍摄城市的视频。他们可以来自汽车、公共设施。我们要做的是将所有的这些数据整合成一个完整的世界模型。我们不但能三维重建环境,还能三维重建任何在环境中运动的物体。这可以看出我们可以通过整合传感器数据,重建出很精确的模型。这是我们的第二个关键领域。
第三个关键领域是对人的理解。我之前提到了,机器人学中一个非常大的领域是和人进行交互。为了能与人交互,系统必须能理解人,理解人是如何运动的,理解人的面部表情,我在看向什么地方,理解人的意图,理解人的内部状态等等。一个重要的动作是理解面部特征,这是一个例子,实时跟踪,视频中只显示了一部分的特征。事实上他会跟踪更多的信息,跟踪几乎所有的面部肌肉运动,从这里面我们就能提取出人的情感,人的意图。这个例子是在导航过程中,观察驾驶员并推测驾驶员的状态。这是我这里的基本思想,理解面部表情。说说关于这项工作的两件事。第一点是这项技术所需的主要突破是推进在底层使用的学习技术中使用的优化算法。第二点是这项技术是来自另一个做面部矩阵(Facial Matrix)的公司(最近被 Facebook 收购了),所以这项技术在不久将来很快就能加进各位的 Facebook 平台中。
理解面部表情是理解人的一个重要部分,但是另一个重要部分是理解人的姿态和动作。如果机器人和我一起走,我希望它能理解我的所有动作,我是怎么运动的。这是另一个工作。这是我们最新的一个叫 OpenPose 的软件,现在它世界中各种各样的场合都有所应用。这个工作是同时跟踪多数的目标的姿态。一旦你做到了这点,就可以做很多很多应用。对于自动驾驶的汽车,你能够检测到诸如行人在做什么的细节;对于家庭机器人,它可以理解人是怎么运动的,怎么和机器人进行交互的。然而这还是不够。如果你想要知道人在做什么,你需要理解人的手是怎么运动的,是如何和环境进行交互的。我们在人的每根独立的手指与环境交互的尺度上理解更多人动作的细节。你可以想象,现在系统能够通过人操纵物体的过程,理解人在做什么,能够从细节上理解制造业的操作中人与物体的交互过程。以上第三个感知的关键领域,让机器能理解人。
第四部分是传感器。为了做到上面提到的技术,我们需要传感器。我需要摄像头,3D 传感器,RGBD 传感器来给我足够好的数据来支持上述的各项技术。众所周知,伴随着智能机行业,消费性电子行业的发展,我们在摄像头,深度传感器的数据质量上取得了长足的进步。我们现在有非常好的摄像头,非常好的深度传感器,例如 Kinect,realsense。从表面上看,传感器问题已经被解决了,我们有很好的传感器能用。然而实际上并不是这样的。事实上在现实中的机器人应用中,当我们需要他们时,这些传感器并不能在我们需要的场景中使用。首先,在我们希望使用这些传感器的实际场合中,有非常复杂的照明和光线条件。我们还要能处理观测难度高的透明的物体,如金属制的反光物体。我们想能处理重要的物流或零售应用。我们需要能处理各种极难处理的物体,这些物体是透明的,表面还会反射出人的倒影。在室外自动驾驶场景中,我们要处理非常困难的逆光场景。在这些所有的条件下(例如坏天气下雨下雪,室外场景)在这些所有条件下,现有的传感系统基本上都会失效。任何现有的 RGBD 传感器,像 Kinect或realsense,在这些场景里都会失效。这些真实世界的环境条件就是我们想要处理的条件。
很多的大家知道的解决方案像激光扫描设备(例如 Velodyne),他们的问题是依赖于机械,很大,很复杂。而像 Kinect 这样的则在这些条件下表现的不好。为了搭建鲁棒的机器人系统,我们需要更好的传感器。这是我们面对的一个主要挑战。我们花费了大量的精力在传感器技术中。基本思路是如何精巧地构建透射出去的光线和观测反射回来的光线。基本的想法是试图区分出什么光是我们关心的,什么光是我们不关心的。如果你试图透过尘土或者雨观察,有一部分光会被灰尘反射、折射,这些光我们是不关心的,我们关心的是场景反射回的光。所以这项工作的关键就是,我们要尝试设计一个能区分这两部分光的系统。这是一个叫 Episcan 的传感器。它的工作原理十分简单,一个非常可靠的激光发射器和一个相机非常仔细地同步到一起。这样它可以将光和目标物体的深度信息从环境中其他的干扰反射中区分出来。这是我们的一个例子,传感器试图获取灯的数据。如果是通常的摄像机效果是这样的。所有的东西都被灯光掩盖住了。而我们的传感器可以做到看见台灯的内部细节,尽管我们投射的能量的强度并没有左边那么强,而且我们能够得到这个台灯的三维形状,即使在存在强光干扰的情况下。这里是另外一个例子,测量户外环境的三维数据。我们没有办法用 Kinect 或者 realsense 等等来测量。最重要的部分是,这一类工作致力于开发在所有情况下都能展示清晰结构和形状的流明摄像机,无论室内还是室外,无论物体什么类别。这种在所有情形下都能工作的检测能力是很重要的。让我们来看看我们在其他领域所做的事情。刚才所讲的呢就是感知的领域,理解环境、重构环境,包含了存在任意的移动,理解人的行为和其他比较麻烦的分析。
下面要讲的领域便是机器学习。这里要注意的是我们不可能显式地对机器人编程,我们能做的,是从数据中学习,以及从数据中学会如何对环境做出反馈。这是我们工作的重心。基本想法是要赋予机器人孩童那样从经历中学习的能力。靠玩耍和与环境互动,孩童学会了如何抓东西。这就是我们在机器学习中想要做类似的事。这不意味着你要让一个机器人从零开始学习,而是说如果我们能够学习一些策略,学习如何反馈环境,我们能够让机器人适应力更强,对变换的环境更适应,同时让他们从错误中吸取教训。这就是这类研究的基本想法。让我们来看一些例子。这是一个学习如何抓取物品的例子。这里我们让机器人花了七百小时来尝试抓取物品,有时成功,有时失败,总共尝试了有5万次左右。如果你尝试得足够多,你就有了足够多的成功和失败的案例,你就能从中学习到如何对一个特定输入采取行动的策略。从这张图能看到我们失败和成功的案例。然后我们就学会了如何抓取物体。现在屏幕上的物品是之前机器人没有见过的,但是机器人却知道如何通过之前的训练来判断如何抓取他们。这篇论文(Lerrel Pinto and Abhinav Gupta, Supersizing Self-supervision: Learning to Grasp from 50K Tries and 700 Robot Hours)在 2016 年的 IEEE ICRA 会议上获得了最佳论文奖。现在我们看到了如何从经历中学习。但是现在更令人兴奋的是能够学习一些更复杂的策略。就拿这个例子来说,只是学习了抓东西,而没有学如何把东西拿稳,如何稳定地操控。事实上我们可以走的更远。这里我们让机器人学习如何抵抗逆境,从而学会如何把东西抓稳。这就跟小孩子如何学会判断怎么抓,哪个方向更稳是一样的。这就是利用物理互动和对抗来学习更多复杂的策略。
现在为止讲了操控和抓取的例子。另外一个我想提一下的是,多任务学习。在这里机器人除了能抓取,还能推,或者戳一个物体。所以一个研究领域就是如何跨任务地学习,掌握多种技能。刚才讲的都是操控相关的,你也可以学一些飞行之类的技能。这是个学习飞行的系统。和刚才讲的抓取一样,这个也是靠不断尝试和犯错来学习飞行策略的,利用深度学习的方法来学习策略。等到无人机学习了很多成功失败之后,它便能仅仅利用搜集和学习到的数据真正自主飞行了。这些学到的复杂技能向我们展示了学习的强大之处。这些便是机器人系统的另一个重要部分。重申一下,我们的目标不是让机器人从零开始,我们的目的是让机器人从数据中学习从而更有适应性,更灵活。
下面一个要讲的方面是自主性,也就是自己决策的能力。这里有一个十年前的例子——DARPA 挑战赛。在第一个自动驾驶的公开赛中,我们当时获得了冠军,这个队伍后来到 Google 公司参与无人车研发,开启了整个无人车领域的工业和研究的发展。这个例子里展示的自主性就是自动驾驶。自动驾驶其实开始于很久以前。这是1986年,也就是三十多年前的例子,一个在 CMU 开发的叫做 NavLab 的系统。车上面有基本的计算系统,还有个超大的摄像头,用蓝色方框标出的是一个激光雷达,应该是第一个用于自动驾驶的激光雷达。这算是 Velodyne 的祖先,也是现在很多自动驾驶雷达的前身。它可以提供 60x256 的距离测量能力。如图便是这个三十年前的自动驾驶的视频。这是利用神经网络的自动驾驶,以摄像头拍摄的图片为输入,输出控制方向的行为。这算是现在用于自动驾驶的模仿学习,深度学习的初代版本。这是激光雷达看到的深度图像。这也是一个证明时代科技发展的案例,从三十年前到现在。如果你们曾经抱怨计算资源不够,GPU 不够,这是当时在 NavLab 系统内部的情况,我们使用的是工作站来运行。
讲了一些历史之后,我们现在又在做些什么呢?我们现在基本在关注三个主要的挑战。第一个挑战是自动驾驶现在不能实现安全的驾驶,比如不会碰撞,不会发生事故。我们想要的是让驾驶的过程很自然,我们想生成自然的、能够为其他驾驶员理解并合作的驾驶习惯。第二个难点是要能让模型把握环境的细节,这对于在拥堵环境下的自动驾驶尤为重要。有许多的行人、许多复杂的反应,不仅需要知道物体在哪里,还要知道环境中物体的可能意图和行为,比如预测行人或者其他车辆的活动、行为和相互作用。最后,利用其他数据和其他车辆交流,也是一个重要的领域。我们整合尽可能多的数据和信息用于自主决策。这些就是在自主性中我们要关注的三个主要的领域。
在基础研究中,最后一个难点便是机器人和人类的互动。能够和人类互动是在机器人和其扩展领域中很关键的课题。我们关注的是深入理解人类行为,特别是人类的意图。比如我把手像现在这样移动,你应该能猜到我要拿鼠标,我们大脑有一个内部的模型知道我的行为和意图。第一个要做的就是如何构建这样一个理解人类的模型,特别是能够预测意图和行为的模型。第二个要做的事如何利用这个预测模型与人互动,这和一些机器人合作的方式和技术有关。我这里举个例子,一个让机器人系统和人类控制合作的极端条件下的例子,把人类的意图和系统控制相结合。这是匹兹堡大学的瘫痪病人,她不能移动自己的手和脚,完全没有行动能力。你能看到她拥有一个和她大脑相连的机械手臂,,能够接收大脑的信号,并根据信号来控制手臂。这个脑部连接技术是之前被使用过的,这个技术的问题在于她仅仅能比较粗略地控制手臂,不可能用大脑信号来做一些非常精确的操作。即使病人经过了训练,她也不能够成功完成有用的任务,因为你没办法达到人类本身的控制水平。这里的想法就是利用我之前所讲的所有东西。先有一个视觉系统来捕捉和理解整个场景,加上一个意图识别系统来理解人的意图。就像我开始这样移动,可能是要抓起这个鼠标,这个系统对人的意图会有一些概率的预测。给定意图之后,系统就能控制手臂、执行任务。极端的来说,一个人在想他要抓鼠标,然后系统知道了这一意图并且执行了任务。这是一种对来自大脑信号的控制和人工智能的控制的独特的整合。接下来是一个视频的展示。右边是完全来自大脑信号的机械手臂控制,左边是整合了大脑信号和人工智能系统的手臂控制,也就是刚才讲的意图识别,场景理解等。右边的情况下她不能抓取目标物体,而左边她可以顺利完成。仅仅是这个简单的抓取,对纯大脑信号来说都是不可能的,却在与人工智能系统的整合后变得可能了。这就是我在开头所说的,我们真正感兴趣的是我们以前不可能有的新技能,做这么多操作以前对这个病人来说是不可能的,这就是我说的赋予人新技能的机器人技术。不过,抓一个东西显然不是非常让人兴奋的操作。这里有一个更难的,对纯大脑信号完全不可能的操作,开门就是一个这样的例子。这里是整合了大脑信号和智能系统(这里是病人的头部和大脑植入物体)。她即将使用整合了大脑信号和意图识别等的系统来开门。这是一个听起来不难但实际很难的操作,因为它包含了两种不同的运动,将旋转和平移如此精确地同时执行,纯粹的大脑信号控制是不可能做到的。
刚才讲的分别是一个极端的例子和不那么极端的例子。让我用这些技术整合起来的系统来结束这个话题。当我们拥有了这么多科学技术,我们需要把它们整合成一个完整的系统,我目前为止讲的都只是其中的成分之一,感知,学习等等。很多工作落在一些基本的事件上。这些图片展示了一些完整系统,采矿业,农业,制造业,以及探测业(一个非常大且重要的方面)。我们在不同的设备上做了很多工作,在国家机器人工程中心(在CMU),在这里我们能够用刚才讲到的来做一个更大的机器人系统。我们来看看这些实际的机器人系统的主要挑战又有什么。很重要的一点便是安全性和信任。在经典的软件系统和经典的工程系统,我们建立了良好的测试、验证证明这些系统的框架,有一些正规化的、公式化的验证软件。问题是,我们如何设计正规化的验证框架,验证那些不仅仅是由软硬件组成的系统,而是基于数据学习的系统。因为现在一个系统的表现不仅仅取决于软硬件的正确运行,也依赖于那些用来学习的数据。更难办的是,如何去评估一个适应时间改变的系统。基于观察的数据能够随着时间改变自己表现的系统,我们如何评估这些复杂的有不同方向用处的系统,这些就是我们在建立系统时主要关注的一些领域,这是一个新兴的致力于打造可信赖机器人的领域。这是一些我们的大项目的图片,和验证软件一样,验证机器人系统。我们需要有事实依据来验证证明系统的表现,从而使系统具有可预测的、能被人类所信赖和利用的表现。这是一个很小的例子,有一个人在与非常危险的工作环境互动,当然是在保证安全的情况下,从而我们能更好观测系统的表现,得到一个可信赖的系统。这是另外一个无人机的例子。对于自动的系统来说,适应所有环境显然是很困难的,所以我们需要有一个内省或者叫做自我评估的系统,让系统能够自己评价自己的表现,然后在系统即将陷入困境、失败之前采取正确措施。比如你在开车,突然你被大雾包围,你立刻就能知道你的视觉系统肯定会失效。我们需要赋予机器人同样的能力,让机器人能自我评估,并且在知道其表现会受影响的情况采取正确措施。这便是这一类工作的思想所在。在图中这里例子里,左边的视频是无人机的单目图像,右边是从无人机单眼摄像得到的三维图像,最右边是代表了可能失败的概率,越高代表概率越大。无人机一边飞行一边检测自己的飞行表现,就像你开车时能知道视野如何,自己开车的表现会如何。这是我们在理解、衡量以及增强一个自动系统时关注的一方面。
更普遍来讲,我们致力于建立自主系统的集成科学。它带给我们正规化的工具和方法,把之前说的那些技术成分整合进在现实应用中能被真正信赖的系统。以上就是我想和大家分享的。主要关注一些基础的研究和方向,动作、感知、机器学习、自主性以及和人的交互,以及在技术集成领域的一些主要挑战,如何把技术成分融合成实际应用的系统。我的演讲就到此结束。
来源:dupress.deloitte.com,编译:新智元
【新智元导读】2月10日,德勤发布报告《2017德勤技术趋势》,以“运动中的企业”为主题,全面分析未来 8 年影响商业领域的核心技术及其影响,还包括企业应用和策略上的建议。报告特别提出了机器智能(MI)这个新概念,MI 包含机器学习、深度学习、认知分析,到 2019年全球商业支出将达 313 亿美元。新智元第一时间对报告中“机器智能”相关内容(其中包括亚马逊副总裁及 Alexa总监的应用建议)进行编译整理。
今年德勤技术趋势报告的主题是“运动中的企业”(the kinetic enterprise),这一概念描述了正在发展灵活性和愿景的公司——如今,公司不仅要克服运营上的惯性,还要在一个不断发展并将持续变动的商业环境中茁壮成长。
要做到这一点很难。虽然科技进步让我们看到了潜力,但只有少数几种技术可能最终让我们实现真正的价值。更多的实际上是炒作。只有认真鉴别、主动出击,才能将潜能转化为现实。
在这样的理念推动下,德勤推出了他们迄今第 8 份《德勤技术趋势报告》。在这份最新报告中,五大宏观领域——数字化、分析、云、核心系统和基础设施重构,以及 IT在企业中不断变化的作用——保持不变,这些都是年复一年推动企业创新和转型的力量。不过,尽管这五大力量无处不在,各个企业在采用方面仍然存在很大差异。
今年报告新增的 3 个分领域:机器智能(Machine Intelligence,MI)、混合现实和区块链。其中,机器智能更是作为新增技术之首,在今年的报告中占据了很大的篇幅。根据德勤预测,到 2019年,全球商业在机器智能(MI)的支出将达到 313 亿美元。
值得注意的是,德勤报告认为,人工智能(AI)是机器智能(MI)的一部分,机器智能是一个更加广泛,也是更加重要的领域。机器智能的几个主要分支包括:机器学习(ML)、深度学习(DL)、认知分析、机器人过程自动化(RPA)和 Bot。报告指出,“总体来说,这些技术和其他工具共同构成了机器智能(MI)”,我们可以将 MI 理解为算法的能力,这些算法能够增强员工绩效、将日益复杂的工作自动化,并开发出模拟人类思维、参与人类工作的“认知代理”。
德勤指出以下三个因素推动了 MI 的发展:
数据呈指数级增长:如今企业中充斥着数据,迫切需要工具来分析和处理信息。德勤报告指出,公司收集的数据量每12个月翻一番,到2020年将达到约 44 ZT。
更快的分布式系统:与数据暴增一样,计算能力和速度也在飞速提升,现在的物联网、各种传感器和嵌入式智能设备构成了规模庞大的分布式网络。
更智能的算法:报告指出“MI 算法稳步发展,在实现认知计算模拟人类思维过程初衷的方面有了初步成果”,报告还预测在未来18到24个月的时间里,MI 算法将得到广泛的使用,包括优化、规划和调度;确定概率;实现机器人过程自动化及其他任务。
总的来说,语音识别、自然语言处理和机器学习等 MI 技术将帮助企业自动执行传统上由人类完成的许多任务,从而提高效率和生产力。诸如 Alphabet、亚马逊和苹果这样的大型科技公司则打算向企业提供这些服务。反过来,风险投资公司也将其投资组合加到整个食物链的底层。
在德勤 2016 年全球 CIO 调查中,1200 名IT 高管被要求说出他们计划在未来两年投入大量资金的新技术:其中有 64% 的人列举了认知技术或 MI。
德勤报告中还包括了对企业应用 MI 的一些建议。亚马逊副总裁兼 CEO 技术顾问 Maria Renz 和亚马逊 Alexa 总监 Toni Reid 在报告中写道:“我们建议你分析客户群,倾听他们,了解他们的核心需求以及如何让他们的生活更容易……不要害怕代替客户发明新的东西——客户并不总是知道自己想要什么。如果你在客户体验方面正确聚焦,其余的自然水到渠成。”
机器智能——技术模拟人类认知来创造价值
人工智能快速的进化已经带来了大量独特的东西,尽管它们总是被误解的。AI 的能力,比如机器学习、深度学习、认知分析、机器人自动化(RPA)、bot等等。总体上,这些和其他的工具组成了机器智能:算法的能力可以增强雇员的表现、将越来越复杂的工作自动化,并且开发出能够模拟人类思维和参与的“认知智能体”,在高级的分析方法中,机器智能代表了未来。
数据(DATA)作为一种关键商业资产的崛起一直是每个“技术趋势”报告中的一个主题,从管理其爆炸式增长的数量和复杂性所需的基础功能到越来越复杂的分析工具技术,再到从数据库中挖掘业务洞察都是如此。
通过利用分析来发掘在不断增长的数据存储中隐藏的模式,洞察和机会,一些公司已经能够开发新的用户参与方式、增强员工的技能和智力、培育新产品和服务、探索新的商业模式。今天,越来越多的CIO正在积极奠定让其组织更具洞察能力所需的基础。
人工智能(AI)——能够执行通常需要人来完成的任务的人工智能(AI)技术—正在成为这些分析工作的重要组成部分。然而,AI 只是认知计算领域中更大、更引人注目的一系列发展的一部分。比AI 更大的是机器智能(MI),这是代表新的认知时代的一系列进步的总称。我们在报告中提到了近年来取得快速发展的一些认知工具:机器学习,深度学习,高级认知分析,机器人自动化和 bot,仅举几例。
我们已经在各个领域看到开始出现机器智能的早期使用案例。例如,在美国,一家运行全美最大的医学研究计划之一的医院正在“训练”其机器智能系统以分析存储在医院数据库中的100亿张遗传和基因图像。在金融服务中,认知销售助理使用机器智能与有希望的销售线索发起联系,然后锁定,跟进并维持这种联系。这个认知助手可以解析自然语言,以了解客户的对话问题,同时处理多达27,000个会话和几十种语言。
在接下来的几个月中,我们会看到类似的应用案例,因为会有更多的公司正在试图利用机器的力量。在机器智能各个方面的投入已经增加,预计2019年将达到近313亿美元。机器智能也成为CIO的优先考虑事项。德勤的2016年全球CIO调查中,1,200名IT高管提到了他们计划在未来两年内大幅投资的新兴技术,其中 64%的人提到了认知技术。
数据:现在远比从前多得多
我们今天提到的认知计算,实际上起源于20世纪50年代,它是一种有远见的努力方向,希望让技术模拟人类智能。虽然有些原始的AI技术在20世纪80年代已经开始商业化,但是直到21世纪,组成机器智能的 AI 和认知计算能力,才算是真正的腾飞。
有三股强大力量共同驱动着机器智能趋势:
1、数据指数级的增长
如今,我们创建和复制的数据,每12个月大小增加一倍。实际上,到2020年,全球的数字预计将达到44泽字节(zettabytes)。我们还知道,随着物联网,暗分析(dark analytics)和其他数据来源的激增,数据将增长得更快。从商业角度来看,这种爆炸性增长将转化为比以往任何时候都更有价值的数据源。除了使用传统的分析技术,这些大量的结构化和非结构化数据,以及存在于深层网络中的大量非结构化数据,对于机器智能的进步至关重要。这些系统消耗的数据越多,它们在发现关系,模式和潜在影响这些问题上就会变得“更聪明”。有效管理快速增长的数据需要更高级方法,来掌控数据、存储、保留、访问、情景和管理。
从联网设备生成的信号,到所有业务所有功能中的历史转换数据中隐藏的字符行级别的细节,处理数据资产正在成为建造机器智能的一个关键组成部分。
2、更快的分布式系统
随着数据量越来越大,分析越来越复杂,让数据对个体用户可访问的分布式网络现在的能力已经得到指数地提升。今天,我们可以快速处理,搜索和控制几年前无法实现的数据。当前一代的微处理器提供了的性能是1971年推出的第一个单芯片微处理器的400万倍。
这种能力使得高级系统设计成为可能,例如支持多核和并行处理的那些。同样,它支持高级数据存储技术,支持对归档数据的快速检索和分析。正如我们看到的MapReduce、内存计算和硬件优化的MI技术,如谷歌的张量处理单元。技术正在进一步优化我们管理指数级数据的能力,使之更有效。
除了纯粹的功率和速度的增加,分布式网络的覆盖范围也越来越大。它们现在可以与驻留在云中的基础架构,平台和应用程序无缝连接,并可以消化和分析存在于那里的不断增长的数据。它们还提供分析和驱动来自“边缘”功能(如物联网,传感器和嵌入式智能设备)的流数据所需的能力。
3、更智能的算法
近年来,随着机器智能算法变得越来越强大,实现认知计算的最初目标——模拟人类思考过程,也获得了稳步的进步。
随着机器智能使用案例在接下来18至24个月内不断涌现,以下算法能力将可能在公共和私有部门中得到更广泛的应用:
优化,规划和调度:在更成熟的认知算法中,优化自动化的、复杂的决策和在有限资源中进行权衡。类似地,规划和调度算法设计一系列动作以满足处理目标的要求并观察约束条件。
机器学习:计算机系统正在通过数据来发展提高自身的能力,这个过程总不需要遵循直接的编程指令。在其核心,机器学习自动地从数据中发现模型。一旦经过确认,模型能被用于做预测。
深度学习(Deep Learning):开发人员正在研究涉及人工神经网络的机器学习算法,这是启发自大脑的结构和功能。其中,互相连接的模块运行数学模型,这些模型根据处理大量输入得出的结果来进行不断微调。深度学习可以分为有监督学习和无监督学习。
概率推理(Probabilistic inference):使用图形分析和贝叶斯网络来识别随机变量中的条件依赖性的新的 AI 能力。
语义计算(Semantic computing):这种认知类别包括计算机视觉(分析图像的能力),语音识别(分析和解释人类语言的能力),以及各种为了理解自然语言表达的意图和计算内容的语义的文本分析能力 。这些信息被用于数据分类,映射和检索。
自然语言引擎(Natural language engines):自然语言引擎以人类的方式理解书面文本,但它可以用复杂的方式进行文本处理,例如自动识别文本中提到的所有人名和地址;识别文本的主题;或者以人类可以理解的方式提取出合同中的条款并制成列表。自然语言引擎通常可以分为两类,一是针对人类语言的自然语言处理技术,二是针对创造自然语言输出的自然语言生成技术。
机器人过程自动化(RPA):机器人软件,或称“bots”,可以通过模仿人类与软件应用程序交互的方式来执行例行的业务流程。企业开始结合采用 RPA 和认知技术(如语音识别,自然语言处理和机器学习)来自动化执行基于知觉或判断的任务,这些任务从前被认为是只能由人类执行的。
机器智能如何创造价值?
对 CIO 而言,转向机器智能需要一种新的理解数据分析的方式。数据分析不仅仅是一种创建静态的报告的方式,还是一种利用更大型、更丰富的数据库来自动执行任务并提高效率的方式。在机器智能中,CIO 可以考虑的机会包括:
认知洞察(Cognitive insights):机器智能可以提供深入、可操作的洞察,不仅对已经发生的事情,而且包括现在正在发生的事情和接下来可能发生的事情。这可以帮助企业制定程序来提高员工效率。例如,在全球的呼叫中心中,服务代表可以使用多功能的客户支持程序来回答有关产品的问题,接受订单,调查定价,以及解决客户的其他问题。许多这样的系统还需要工作人员在屏幕间来回跳转以找到回答特定查询所需要的信息。
认知参与(Cognitive engagement):机器智能价值树的下一级是认知智能体(cognitive agents),即采用认知技术与人类进行交互的系统。目前,这项技术主要服务对象是消费者而非企业。例如,认知智能体可以相应人类的语音命令来降低恒温器温度或打开某个电视频道。但是,有可以从这种认知参与中受益的企业业务,并且新的应用领域开始出现。认知智能体将能够接入复杂信息,执行诸如处理患者入院,为用户推荐产品或服务等任务。它们可能在客户服务领域有更大的商业潜力。
认知自动化(Cognitive automation):第三个,可能也是最具颠覆性的机器智能机会,是利用机器学习,RPA,以及其他认知工具开发深度的专业领域知识(例如,按行业、职能或地区区分),然后自动化执行相关的任务。我们已经看到有机器智能的系统能够自动化执行从前需要经过训练的人力进行的工作。例如,有医疗公司应用深度学习技术进行医学图像的分析,在测试中,系统在判断恶性肿瘤方面比人类专家的能力高50%。
在教育领域,嵌入在在线学习程序中机器智能可以通过跟踪学习者解题时的“心理步骤”来模拟一对一辅导,为学习者提供及时的指导、反馈和解释。
协同机器人(Co-Bots),不是机器人(Robots)
面对成本压力,长期低利率,竞争的加剧,以及不断变化的客户和市场动态,全球保险供应商美国国际集团公司(AIG)发起了战略重组,以简化其组织和提高运营效率。这个目标涉及处理不断加剧的技术债务问题,以及一个对运营稳定性产生挑战的分布式IT部门。
根据AIG全球首席技术官Mike Brady的说法,通过将IT重组为一个向CEO报告的单一组织,AIG为创建新的企业技术模式奠定了基础。这一变革性计划的第一步涉及到建立基础能力,为此团队制定了一个三部分的方法:
维稳:因为用户几乎每天都遇到严重的中断,虚拟网络每周就会瘫痪一次,所以整体网络性能需要改进。
优化:该策略侧重于自助服务配置,自动化和成本效益。
加速:为了快速前进,团队实施了DevOps战略,以创建持续集成/连续部署工具链和流程,以实时部署软件。
AIG借助了机器学习来实现这些指令。该公司开发了一个先进的协作机器人程序,这个程序可以利用内置的算法能力,机器学习和机器人过程自动化。这些虚拟工作者被称为“协同机器人” ,公司希望每个人都能将虚拟员工作为员工的延伸和助理。
2015年10月,AIG部署了“ARIES”,该公司的第一台机器学习虚拟工程师,以解决全球网络问题事件。在90天的试验计划期间,ARIES接受了“策展和监督”模式的培训,在这种模式下,机器与人类一起操作,并从人类的行为中学习。在这种方法中,ARIES通过观察和实验来了解如何评估运行中断的来源并确定可能的原因和应急响应。协同机器人在第91天时就已经准备全部的部署。这不是因为这些机器本身工作效率高;事实上,AIG发现,人类平均需要8到10分钟解决一个典型的问题,而协同机器人用时平均8分钟。这也就是说,机器人最大的好处是它的规模:机器人可以全天候工作,不间断或睡眠,它们可以迅速解决事件,排队和积压从不发生。
在ARIES参与工作的六个月内,这个自动化系统识别和解决了超过60%的网络运行中断。在一年内,ARIES的机器智能,加上监测AIG环境健康状况的传感器的增加,使其有可能在问题影响业务之前,以编程方式解决各种各样的警报。虚拟工程师可以自动识别不健康的设备,执行诊断测试以确定原因,并登录以实施修复或将问题上报到技术人员并提出“建议”。另外,协同机器人涉及到网络问题,如果数据模式显示一个设备在一个月内造成50起事件,IT团队就知道此设备需要更换。这些问题在过去一年中将严重性等级1和2的问题数量减少了50%。他们还提高了技术人员的工作满意度。技术人员现在可以专注于更具挑战性,更有趣的任务,而不必执行普通和重复性的任务,而且可以从协同机器人的建议展开自己下一步的工作。
另外还有四个由管理人员操作的协同机器人,协助负责治理、工作、培训和学习,甚至绩效管理,已经成功上岗了。
随着IT中的协同软件程序的成功,AIG正在探索在业务操作中使用机器学习的机会。 “我们希望企业使用机器学习,而不是占用更多的资源,”布雷迪说。 “我们需要利用大数据和机器学习作为新的资源,而不是将其视为新的成本。”内部试验正在开发,以确定协同机器人是否可以审查损害索赔,并立即授权付款检查,以便客户不需要延迟治疗。其他机会有可能出现在增强型认知的自助服务,增强代理辅助渠道,甚至可能使用认知代理作为他们自己的面向客户的窗口。
“协同机器人的方法需要磨合,”布雷迪补充说, “如果一个问题真的很复杂,你不希望团队内部打架。这就是设计思维的有用之处。自从我们在一年前开始启用机器人系统,我们已经解决了145,000次事故,令人难以置信的好。将其转移到业务流程,最终达到认知客户交互是一条必经之路。
服务患者
随着医疗保健转向基于结果的模式,患者正在寻求健康保险公司提供与许多零售商和银行相同水平的高度个性化的客户服务。为了满足这一期望,作为美国最大的健康福利公司之一,Anthem正在探索如何利用认知计算的力量来简化和增强与客户的联系,并使客户服务更有效,更灵敏,更直观。 Anthem的最终目标是改变公司与保险用户在整个受保周期内的交流方式,而不仅仅是在被保人申请索赔时。
Anthem的战略涉及机器智能的三个维度:洞察,自动化和参与。在第一阶段,公司正在对索赔裁定流程应用认知洞察,以便为索赔审查人员更好地了解每个案例。Anthem的临床分析及人口健康管理副总裁Ashok Chennuru表示,“我们正在整合内部付款人数据索赔,成员资格,提供者人口统计数据与外部数据,包括社会经济,临床/ EMR,生活方式和其他数据,以建立健康计划成员的纵向视图。“
目前,审查者从文档审查、患者历史发现和取证收集开始,来确定下一步骤。但是通过认知洞察,新系统正在不断地审查背景中的可用记录,从一开始就提供全面的图像,包括补充信息,例如患者的重复住院以通知可能的护理计划或有针对性的干预,以及应用智能来解决索赔的任何潜在问题。在索赔代表收到案件时,他有评估所需的全面信息.
在下一阶段,Anthem将开始为索赔处理增加认知自动化,从而腾出时间让审核员去帮助需要更复杂帮助的患者。 “通过部署预测性和规范性分析和机器学习算法,我们将能够以更具成本效益的方式处理结构化和非结构化数据,”Chennuru说。首先,系统将识别需要解决的任何潜在问题,并推荐具体的行动方案。随着系统的成熟,如果它的分析基于所有信号和输入达到一定的确定性值,它可以自己开始解决某些问题。如果确定性水平低于该值,则审核员仍将手动审核和解决索赔。由于系统的持续学习能力监控审核员如何成功地解决问题,系统会将特定问题与适当的行动方案相关联,以不断提高其自动化分辨率的准确性和效率。
在第三阶段,随着Anthem更深入认知参与,公司将更广泛地利用其神经网络和深度学习,与医疗保健提供者一对一地参与,为患者推荐个性化护理计划。在从简单的反应到索赔转变为主动参与客户的护理,Anthem将能够审查病人的病史,并联系医疗机构,提供护理计划的建议。
Anthem的半监督机器学习能力教会几桶如何分解问题,组织它们,并确定最佳响应。在测试期间,观察者将比较系统行为和性能与传统的人为驱动方法来衡量系统的效率和准确性。
该公司目前正在收集和处理数据,培训系统,并简化其解决方案架构和技术,并且由于理赔管理认知洞察而获得了全面的积极成果。自动化裁决系统的原型计划于2017年推出,然后会在几个月后启动一个最低可行产品版本(MVP)。
Anthem已经建立了广泛的认知能力,有多个团队通过案例学习的方式来实现结果,评估有价值的证明,并优化团队如何准备数据,调整算法和提供程序可用性。 “最终,”Chennuru说,“我们将能够在诸如价值分析,人口健康管理,质量管理等许多领域中利用该平台,并洞察医疗服务和医疗成本之间的差距。”Anthem希望使尽可能多的企业认知服务,能够训练其模型,优化其计划,并发展其认知智能,以帮助公司更好地为会员服务。
如何在企业中运用机器智能(MI)?
很少有机构能够宣布在数据上和数据相关方面取得了胜利。即使数据是大部分是结构话的,并被限制在公司限制在内部信息中,管理和分析也是极具挑战性的。今天,复杂的算法和分析技术使我们能够解决复杂的情况,我们可以从被动描述发生了什么过渡到主动自动化业务响应。然而,即使具有快速发展的能力,一些组织仍然在数据上苦苦挣扎。
好消息是,机器智能提供了新的方法和技术,可以帮助我们最终克服一些长期的数据难题:
策略数据:MI技术可以以很大程度上自动化的方式应用于数据分类和本体以定义,合理化和维护主数据。MI可以分析每一块数据,其中关系,并创建与数据的质量相近的派生导出。同样,它可以潜在地提供用于补救出现的内容或上下文问题的手段。
有限和有目的:专注于获得商业问题的洞察,如果解决,就能提供更加有意义的价值。让问题陈述的范围决定所需的数据输入、适当的MI技术以及周围的架构和数据管理需求。通过解决这些问题中的一些,您可以获得更大的认可,以将MI应用于更复杂的问题。
夏尔巴人的欢迎(Sherpas welcome):MI正在享受自己的启蒙时代,学术界,初创企业和成熟的供应商都在争相提高能力和添加新技术。考虑与供应商的合作,将是对你的努力的联合投资、与能够提供无限访问宝贵专业知识的学者和思想领袖合作也是如此。
产业化分析:数据已成为关键的战略性企业资产。但是,进行有目的的投入的、全面承诺培养、策划、并在整个企业中利用此资产的企业数量还是很少。工业化分析指的是,为所有维度的数据企业包括机器智能,推动方法、平台、工具和人才的一致性和可重复性的。在策略上,这可能会带来数据摄取,集成,归档,访问,授权,加密和管理的服务。
亚马逊副总裁及 Alexa 总监技术分享
(撰文/玛丽亚·雷兹,副总裁兼CEO技术顾问;Toni Reid,AMAZON ALEXA 总监)随着2017年人工智能历史上最令人兴奋时刻的到来,亚马逊团队现在有能力想得更大更远并探索新的领域。
在亚马逊,我们相信语音将会,并在许多方面已经从根本上改善了人们与技术交互的方式。虽然我们距离能够以人类的方式做事情还有很长的路要走,但我们正处于AI和语音技术的转折点。
Amazon Echo的原始灵感是星际迷航计算机。我们想在云上创建一个完全由语音控制的计算机 - 你可以问问题,请求它做事情,为你做事,为你找到一些东西。很容易的以自然的方式交谈。现在还不能完全做到,但这是我们的愿景。
Alexa的主要功能之一是Echo背后的语音和大脑,它是一个基于云的服务,在自然语言理解以及提高准确性方面总是变得更聪明。因为她的大脑在云中,她每天每小时不断地学习和添加更多的功能,这只会使代表客户创新和添加功能变得更容易。
自2014年11月推出Echo以来,我们为Alexa增加了7000多项技能。她的足迹遍布Echo系列设备,现在嵌入其他亚马逊硬件(Fire TV和Fire平板电脑)和第三方设备,如Nucleus对讲系统,Lenovo Smart Assistant扬声器和LG Smart InstaView冰箱,并将Alexa嵌入到福特和大众汽车公司的汽车中。
在她涉及的领域和她在搜索材料中的准确性方面,Alexa能有效地理解用户。 即使如此,语音技术仍然面临着持续的挑战。 当我们最初开始时,这项技术甚至不存在 - 我们不得不发明它。 我们很幸运可以借助AWS云的力量,我们有令人难以置信的智慧的语音专家团队,包括有才华的语音学家,来努力解决这些问题。
我们认为 AI 对客户的好处和机会可以说是无限的。现在,Alexa 主要是在 Echo 上运行,但将来它可以通过无数的系统和应用程序实现扩展。我们通过使用 vAlexa Skill Kit(ASK),Smart Home Skill API 和 Alexa Voice Service API为开发人员提供一系列免费、自助的公共 API,从而使实施过程变得更加简单。
最终,我们在机器智能,神经网络和语音识别领域的发展将能为我们的客户提供更多新功能。
在网络安全层面,人工智能同时带来了回报和挑战。所谓回报,是指借助机器自动化的高速高效来保证风险控制某些方面的自动化,以快速有效地识别、警戒、触发(或者相反地——消除)潜在的威胁。人工智能对网络系统的杠杆作用可以帮助进行数据分析,并在这些工具识别风险后自动采取特别措施。
具有预知作用的风险和网络模型将数据挖掘的范围进一步延伸到了广大的未知领域,例如暗网,并识别了可能遇到的新威胁。这进一步加强了人工智能在这一领域的有效性。
企业还可以借助人工智能来推进项目,制定策略,以及规划产品。举例来说,通过人工智能的深度学习能力,销售团队可以凭借社交媒体、公共记录或其他网络资源上已经存在的信息,构建起比较详细的客户资料。
不过,人工智能的客户侧写能力也存在潜在缺点:上述过程可能会带来网络安全隐患。人工智能可能会做出一些引发新风险的推断,尤其是当这些推断本身就存在错误的时候。通过建立关联,人工智能也可能会产生一些引发隐私问题的原始数据。归根结底,企业应该仔细考量这些基于推理和关联的原始数据。
确实,随着人工智能在高效和节约成本方面的能力逐渐显现,许多人开始讨论更广泛的伦理和道德问题。目前人类采用的人工智能会对社会、经济和个体组织获取机会方面产生怎样的影响?你的企业如何面对主动出击的人工智能所直接引发的品牌和信誉危机。还有,你的公司能否在已经被描述为“后工作经济”的时代长期生存?
最后,关于风险的讨论也应该包括许多人工智能技术采用“暗箱操作”的现实。眼下,清楚地解释出某些决策和推荐是如何做出的,还不太可能。虽然有呼吁希望能进行算法的透明化,以最终推动审查和理解假设、观察模式和解释结论如何产生的新途径,但这些途径目前现在还不存在。在此之前,尝试确定哪部分的透明度不足可能会是一个问题(法律上、名誉上和学术上),因此需要相应地调整计划。
当我们驶入这些未知水域,CIO、CEO和其他领导者们应该出于对股东利益的考虑,仔细权衡这些名誉、安全、财务以及其他可能会在未来产生的各方面的风险。
人工智能赛博物理操作系统
AI-CPS OS
“人工智能赛博物理操作系统”(新一代技术+商业操作系统“AI-CPS OS”:云计算+大数据+物联网+区块链+人工智能)分支用来的今天,企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中,利用AI-CPS OS形成数字化+智能化力量,实现行业的重新布局、企业的重新构建和自我的焕然新生。
AI-CPS OS的真正价值并不来自构成技术或功能,而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化,这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合,没有颠覆现状的意愿,这些将不可能实现。
领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量,领导者必须在行业、企业与个人这三个层面都保持领先地位:
重新行业布局:你的世界观要怎样改变才算足够?你必须对行业典范进行怎样的反思?
重新构建企业:你的企业需要做出什么样的变化?你准备如何重新定义你的公司?
重新打造自己:你需要成为怎样的人?要重塑自己并在数字化+智能化时代保有领先地位,你必须如何去做?
AI-CPS OS是数字化智能化创新平台,设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端,可以帮助企业将创新成果融入自身业务体系,实现各个前沿技术在云端的优势协同。AI-CPS OS形成的数字化+智能化力量与行业、企业及个人三个层面的交叉,形成了领导力模式,使数字化融入到领导者所在企业与领导方式的核心位置:
精细:这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切,进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。
智能:模型随着时间(数据)的变化而变化,整个系统就具备了智能(自学习)的能力。
高效:企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力,这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。
不确定性:数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验,其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域:技术、文化、制度。
边界模糊:数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化,还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。
AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长:
创造虚拟劳动力,承担需要适应性和敏捷性的复杂任务,即“智能自动化”,以区别于传统的自动化解决方案;
对现有劳动力和实物资产进行有利的补充和提升,提高资本效率;
人工智能的普及,将推动多行业的相关创新,开辟崭新的经济增长空间。
给决策制定者和商业领袖的建议:
超越自动化,开启新创新模式:利用具有自主学习和自我控制能力的动态机器智能,为企业创造新商机;
迎接新一代信息技术,迎接人工智能:无缝整合人类智慧与机器智能,重新
评估未来的知识和技能类型;
制定道德规范:切实为人工智能生态系统制定道德准则,并在智能机器的开
发过程中确定更加明晰的标准和最佳实践;
重视再分配效应:对人工智能可能带来的冲击做好准备,制定战略帮助面临
较高失业风险的人群;
开发数字化+智能化企业所需新能力:员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说,创造兼具包容性和多样性的文化也非常重要。
子曰:“君子和而不同,小人同而不和。” 《论语·子路》云计算、大数据、物联网、区块链和 人工智能,像君子一般融合,一起体现科技就是生产力。
如果说上一次哥伦布地理大发现,拓展的是人类的物理空间。那么这一次地理大发现,拓展的就是人们的数字空间。在数学空间,建立新的商业文明,从而发现新的创富模式,为人类社会带来新的财富空间。云计算,大数据、物联网和区块链,是进入这个数字空间的船,而人工智能就是那船上的帆,哥伦布之帆!
新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力,将进一步释放历次科技革命和产业变革积蓄的巨大能量,并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节,形成从宏观到微观各领域的智能化新需求,催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革,深刻改变人类生产生活方式和思维模式,实现社会生产力的整体跃升。
产业智能官 AI-CPS
用“人工智能赛博物理操作系统”(新一代技术+商业操作系统“AI-CPS OS”:云计算+大数据+物联网+区块链+人工智能),在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能;实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。
长按上方二维码关注微信公众号: AI-CPS,更多信息回复:
新技术:“云计算”、“大数据”、“物联网”、“区块链”、“人工智能”;新产业:“智能制造”、“智能农业”、“智能金融”、“智能零售”、“智能城市”、“智能驾驶”;新模式:“财富空间”、“数据科学家”、“赛博物理”、“供应链金融”。
官方网站:AI-CPS.NET
本文系“产业智能官”(公众号ID:AI-CPS)收集整理,转载请注明出处!
版权声明:由产业智能官(公众号ID:AI-CPS)推荐的文章,除非确实无法确认,我们都会注明作者和来源。部分文章推送时未能与原作者取得联系。若涉及版权问题,烦请原作者联系我们,与您共同协商解决。联系、投稿邮箱:erp_vip@hotmail.com