AI大牛张正友提出机器人A2G理论

会员服务 ·

AI大牛张正友提出机器人A2G理论

2018 年 12 月 18 日 网易智能菌

关注网易智能，聚焦AI大事件，读懂下一个大时代！

【网易智能讯 12月18日消息】昨天上午，由鹏城实验室主办的新一代人工智能院士高峰论坛在深圳举行。会上腾讯Robotices X机器人实验室主任、IEEE Fellow张正友发表了演讲。

张正友是世界著名的计算机视觉和多媒体技术专家，在微软美国研究院工作了20年，于今年3月加入腾讯组建Robotics X机器人实验室。张正友在会上详细阐述了自己对于机器人的研究。

张正友首先表达了自己加入腾讯做机器人研究的初中。他认为，深度学习提升了AI解决问题的准确率，引发的技术的落地潮。从从大型计算机到PC、手机，到可穿戴/陪伴的发展趋势来看，传感器正在变得主动、个人化、多模态。张正友预测，随着计算和感知技术的发展，人类在不久的将来将进入人机共生的时代，“我非常乐意回到祖国，贡献自己的一份力量。”张正友表示。

对于机器人行业的发展趋势，张正友表示，机器人正在从自动化变得在智能自主化，包括反应式的自主，有意识地自主。接着，张正友从机器人的6个组成部分分别介绍了未来发展趋势。

机器人由本体、感知、执行器、动力系统、交互、决策六个组成部分。

其中，本体（包括机器人的腿、手臂、手）的发展正在向着仿生化、灵巧操控、触觉技术、多机器人协作、人机交互、医疗辅助方向前进。据张正友介绍，自己带领的腾讯机器人实验室已经做出了三个机器人，分别是绝艺围棋机器人、桌上冰球机器人、机器狗Jamoca，张正友还在现场进行了展示。

对于“我们是否需要人形机器人”的讨论，张正友表示，人的直立行走形态是人类在进化过程中形成的，机器人是否需要人形，取决于机器人的生存环境，目前机器人在应用中多是平缓的地面，所以多数情况下不需要人形形态，当然需要考虑机器人在现实环境中实现任务。

对于智能机器人的技术突破点，张正友提出了“A2G理论”，其中A代表人工智能，B代表机器人本体，C代表自动控制，ABC构成机器人的基础能力层；D代表发育学习，E代表EQ，F代表灵活操控，DEF代表机器人的智能化水平，G代表守护天使，即机器人最终的目的是要服务于人，包括增强人的智力、体力等等。

对于人工智能和机器人的发展，张正友认为当前还处于“初春”阶段。张正友举了三个例子，第一个是AI系统错认广告牌为董明珠闯红灯事件；第二个谷歌翻译、百度翻译无法识别语义进行正确翻译的问题；第三个是索菲娅机器人与人的沟通基本上都是预先设计好的，其实根本没有与人流畅交通的能力。

“所以，人工智能还有很长的路要走，我们还要继续努力。”张正友说到。（小羿）

以下为张正友演讲实录：

张正友：各位领导、各位院士、各位同学，大家好！首先感谢高文老师邀请，给我一个机会跟大家分享一下我对人工智能和智能机器人的一些想法。

在此之前我想介绍一下我自己，因为我是最近才回到国内的，我从1986年就离开了祖国，我是1985年从浙大毕业的，当时第一次接触计算机，用的是大型计算机，可能大家都没用过，我当时用的是打孔的卡片，和电脑交互。毕业以后就去了法国，在法国之后用的电脑就越来越小，刚开始我学的是语音识别，后面转到计算机视觉，当时觉得语音识别太简单了，只有一维性，所以开始做立体视觉。我参与开发了世界上第一个用三维视觉做机器人导航的。然后我还参与了欧洲Mars Rover，也就是航天机器人，还有海底机器人。在法国十几年之后，我去了日本，在日本待了一年，开发了世界上第一个用人工神经网络做人脸表情识别的设备。1998年加入了微软研究院，在微软工作了20年，开发“张氏标定法”，就是摄像机标定的方法，现在全世界都在用这个方法，无论是无人驾驶、机器人还是视觉方面都在使用，我也开发了Kinect深度传感器，还有远程呈现机器人的研究工作。我介绍这些，主要是讲我为什么有现在的这些想法，这是和我的经历有关系的。

下面我讲一下人工智能，人工智能是一个多学科的交叉研究，现在大家可能都觉得人工智能都是和计算机有关，其实它是和脑神经、认知科学、数位科学有紧密关系的，它主要包括识别、分析和决策等等方面。

人工智能技术是有很多层次的，从基础设施到硬件计算能力、算法、技术方向，包括计算机视觉、语音处理、语言处理等等，到最后运用到具体的技术，解决行业的各个问题。

人工智能技术其实已经发展了好多年，从最开始基于规则，慢慢的基于统计，现在开始做一些数据方面的研究，应用也是很多的。

最近人工智能经过几个高潮和低潮，现在火起来了，这里面很大的原因就是深度学习，深度学习让我们的识别率在很多方面得到很大提高，超出了我们在实际应用中需要的精确度。比方说以前很长时间，语音识别可能只达到77%，现在已经能达到97%了，其实是可以用了。所以催生了很多公司，包括大公司和小公司，还有创业的很多公司。这里我列了一些国内的公司。

腾讯有一个腾讯AI开放平台，网址是AI.qq.com，它依托腾讯的三个实验室，一个是腾讯AI实验室，一个微信AI实验室，还有一个优图实验室。我加入腾讯创建了一个机器人实验室，目前还没有技术可以用到AI平台上，但现在已经开放了100多项AI能力的接口，大家需要的话可以去试一试，欢迎大家使用。

下面就回到我今天要讲的主题，我加入腾讯就是想创建机器人实验室，为什么我要参与这项工作？因为我觉得我们在不久的将来要进入到人与机器人共生的时代。为什么我这样讲？刚才我讲了好多方面，一是从计算的演变，计算从最初的大型计算机到PC的普及，到互联网的兴起，到智能手机的普及，到现在可穿戴式或者陪伴的设备，这些都说明了这个计算能力从最初的固定的时间、固定的程序、固定的地方慢慢变得移动化、无处不在，还有连续化，你随时随地可以拿到你要的信息。另外计算也变得非常个人化，无论是GPS还是信息，都是在你的手机、PC上，得到无微不至的关注。

另外从感知技术上看，刚才讲到我最早用的是打孔的卡片，慢慢有了键盘、鼠标，后面又有了摄像头、触摸器等等。现在我们的智能手机上有很多的传感器，除了摄像头以外，还有很多其它的传感器，现在设备变得越来越主动、个人化和多模态，我们现在还没有充分地把这些感知技术用起来，我们大部分人都是把手机放在口袋里的，女士可能都是放在包里的，这些就是我们的技术还没有得到充分的应用，所以我认为我们应该把这些传感器从口袋里面或者是从女士的包里面解放出来，这是我们以后需要追求的机器人的方向，就是要从非常发达的感知技术里面把这些能力用起来。所以我觉得随着技术发展和感知技术发展，机器人必然会出现，但是目前还不够，所以我们还要继续研发。

接下来讲一下机器人的现在与未来。可以把机器人分成6个部分，第一部分是机器人本体，可能很多人都忘记了，说到人工智能，人家都以为就是一个算法就够了，但是它还要一个本体，这样才能实现真正的智能，本体就包括它的手臂、腿等等。第二是感知，因为机器人需要了解周围的环境，才能做决策。第三是执行器，如果没有执行器的话，机器人本体动不起来。第四是动力系统，第五是交互系统，机器人需要跟机器人交互，还需要和人交互，所以交互系统也是非常重要的。第六是决策，机器人要识别、规划，还要学习。

讲到机器人，大家都会想机器人很早就存在了，以前我们讲的是工业机器人，它更多的是有关自动化的，预先设计好了之后做重复的运动。现在我们开始慢慢往自主方向发展，自主的目的就是要在有很大不定性的动态的环境里面，它要自主地决策需要做的事情，然后完成任务。

我们把自主分成两部分，一部分是反应式自主，它不需要很多深度思考，比方说我们走路的时候可能绊了一跤，我们很快获得平衡，或者是机器你踹它一脚，它马上获得平衡，这是反应式自主。第二个是有意识的自主，需要你决策路径。

怎么识别这两种自主呢？我用了一个叫做SLAP的范式来描述它，这是讲一个机器人的结构，SLAP是什么意思呢？就是Sense和Act之间要紧密结合，它帮助我们实现了反应式的自主，然后在这上面有一个Plan，它是做规划的，这个规划是帮助我们去实现有意识的自主，在这个周围我们需要另外一个能力，就是Learn，我等会儿还会继续强调，机器人是需要通过和外界交互，不断地提升自己的能力。

当你有了智能以后，机器人就可以在很多场景里面，比方说在智能制造、老年陪伴等等很多方面都有应用。

机器人本体目前有6个趋势，第一个是仿生的机器人，比如说蛇形机器人，它可以进入到比较复杂的环境里面，比方说在地震或者其它环境里面搜寻有没有人还活着。第二是灵巧的操控，第三个是触觉技术，第四个是多机器人协同，第五个是人机交互，包括安全交互和物理交互，第六是医疗辅助。

刚才讲到，我认为我们在不久的将来能够进入到人和机器人共生的时代，但是目前的技术还没到那个地步，所以无论是在工业界还是学术界，都需要努力地做更多的研发。我认为机器人领域有一些技术需要突破，才能使得机器人真正能够为人服务。

我把它的技术突破点总结成A2G理论。A2G是什么理论呢？就是ABCDEFG刚好对应了英文的几个字母，A代表的是AI，B是body，C是Control，D是Developmental，发育学习，E是EQ，F是Flexibe Manipulator，G是Guardian Angel。A、B、C是代表了人工智能的集合能力，D、E、F、G是相当于它们需要更高的智能或者是系统。

A就是AI（智能），因为机器人必须要能看、能说、能听，能够理解，这样才能跟外界交互，能够实现它要做的事情。B是Body（本体），这是非常重要的，不同的本体决定了机器人的能力，比方说刚才讲的蛇形机器人，它能够穿过很狭窄的通道，到一个很复杂的环境，所以本体也是需要研究的，C是Control（控制），这是比较清楚的需要继续努力的方向。

我刚到腾讯的时间不长，现在我做了三个机器人，是为腾讯新大楼的展厅做的，第一个是绝艺围棋机器人，第二是桌上冰球机器人，第三是一个机器狗。大家知道腾讯AI做了一个绝艺围棋AI，但是无论是绝艺还是AlphaGo，都需要有一个人去下子，绝艺告诉一个人应该下哪个子，他会下，我们现在加了一个机械臂，它自动去完成下子的任务，这是从本体来做的。从感知角度来讲，它要做一个棋盘和机械臂之间的标定，绝艺要通过后台通讯，知道要下哪一步，控制方面就是机械臂的轨迹控制。桌上冰球的机器人，它的感知是一个高速的摄像头，它能够高速的跟踪冰球的位置，然后预测下一步这个冰球在什么地方出现，它有一个决策，就是到底采用攻击的方法还是防卫的方法，控制就是路径规划和快速控制。机器狗的本体是我们和浙大合作的，这个感知系统是我们自己做的，感知系统能够识别不同的场景和地面，能够避开固定的或者动态的障碍物，控制方面就是针对不同的场景，它能够有不同的步态和平衡控制。

下面给大家看一下几个短视频，这是绝艺机器人，我们目前是用触摸屏来完成跟绝艺的交互。当一个人下了子之后，机械臂就通过和后台通讯，知道应该下哪一个子，然后机械臂就移过去，它同时可以跟两个人下，理论上它可以跟很多人同时下棋。

第二个是冰球机器人，它可以高速地跟踪冰球的位置，它有一个绿色的线是在做预测，它应该在什么时候出现，它会在需要的位置做出反应。

第三个是机器狗，它有一个三维传感器，同时周围有四个广角的摄像头，前面还有一个立体的视觉系统，当看到前面有一个比较高的障碍物，它能够匍匐前进。当看到前面有人的话，它会蹲下来跟人交互。这只是简单的几个系统，是最近我们做的，大家下次有机会参观腾讯的展厅的时候，可以去跟这些机器人互动一下。

我们对机器人ABC的评估标准，要从力量、灵巧、快速、准确和优美的角度评估这些机器人的能力。

这里还想讲一下本体，因为机器人领域里面很多人都强调是人形机器人，对这个问题我有一点思考，人形机器人是不是我们需要追求的机器人的目标？人之所以有直立双足，是经过几百万年演化出来的，是要在荒野里面、大草原里面生存下来，所以我们有了直立双足，但是目前机器人的生存环境，大部分情况下都是一个平的地方，再加上几个台阶，所以我们现在去研究机器人，不一定是一个人形机器人，而是应该思考什么样的最佳的机器人本体，在现在的环境里面要去实现你需要的任务。

下面就讲一下D—G。D是进化学习，目前尽管人家说我这个机器人是通过深度学习出来的，但是学习出来的能力还是固定的，放到一个机器人身上，它永远是这样的，但是我们人从出生开始就跟父母、跟周围人交互，能力越来越强大，所以我们怎么让机器人也具备进化的能力，这是我们需要研究的。E是EQ，因为人和机器人是要共存的，它必须对人有一个深刻的理解，包括感情的理解，同时要用适当的方式把这个感情表达出来，让人理解，所以情感交互是非常重要的。F是灵活操控，我们看到电视、电影里面都是高科技的钢盔铁甲的机器人，但是在人和机器人共存的时代，这些机器人往往对人造成伤害，所以我们要研发不会对人造成伤害的机器人，所以这里面有人造皮肤，或者是高精度触感的传感器，这样能够灵活操控。G是Guardian Angel（守护天使），机器人最终的目的是要服务人、保护人，不能把它当做一个独立的个体，它应该跟周围的环境和周围的传感器结合，同时还要和云结合，这样即使你的家庭成员或者朋友不在边上，你也能够很快地跟他们取得感情的交流。

这是我们用于进化学习研究的一个机器人。我们这个实验室的目的就是要为人机共存、共创和共赢的未来准备的，这里面包括了增强人的智力、关怀人的情感，发挥体能的潜力，还有推进人机协作。

前面讲了很多机器人，现在我要给大家泼点冷水，人工智能和机器人还有很长的路要走，现在仅仅是人工智能和机器人的初春，我不想讲寒冬，否则高老师肯定不高兴了，因为你们要创建人工智能实验室，所以我讲它是初春。初春这个描述还是比较符合实际的。

举个例子，几周前在宁波街头的一个街头的系统识别到“董明珠过马路闯红灯了”。但事实上董明珠并不在那边，而是卡车的车身广告上有董明珠头像的广告，公交车从旁边经过，识别系统发现了，认为是董明珠闯红灯了，这说明它的识别率是很高的，认出了这个图片是董明珠，但是也说明它是很傻的，它不知道这个不是真人。现在很多东西都非常单一，不接地气，这里面还有很大的工作要做，这是从计算机视觉方面举的一个例子。

第二个例子是自然语言的，“前门到了，请从后门下车”，我们都明白，但是我不知道这个自然语言理解对不对，我用翻译的方式去看它理解的对不对，我们用谷歌翻译说，它翻译的是“Front Door”，它的翻译是错的，我觉得可能谷歌不懂中国的国情，所以我用了百度的翻译，它还是翻译“Front Door”，所以百度对中国还是不了解。我想可能是我的语法不对，我改成了“前门车站到了，请从后门下车”，百度的翻译仍然不对，这是人工智能语音方面的。

还有机器人方面的例子，大家知道有一个叫索菲亚的机器人，被阿联酋封为他们的荣誉公民，他们说可以和人交互，但是它还远远达不到这样的水平，它的对话都是通过预先设计好的场景来对话的。人家说人工智能会消灭人类，我已经从事了30多年的人工智能研究，我觉得是不用担心的。但是确实人工智能已经发展了很多，有很多应用的地方，所以我们需要继续往前推进人工智能的应用。但是还要继续投入更多的研究，无论是视觉、语音还是自然语言，或者是机器人，还有认知等等，都需要继续努力，不光是应用，还要有基础的研究，所以我觉得有鹏城实验室这样一个平台是非常好的，我也非常乐意回到祖国，和大家一起为人工智能的发展贡献我自己的一份力量。谢谢大家！（完）

- 加入社群吧 -

网易智能AI社群（AI专家群、AI黑板报）火热招募中，对AI感兴趣的小伙伴，添加智能菌微信 kaiwu_club，说明身份即可加入。

登录查看更多

相关内容

张正友

关注 1

张正友，腾讯 AI Lab 主任 ACM/IEEE Fellow。计算机视觉和多媒体技术专家，国际计算机学会（ACM）会士，国际电气电子工程师学会（IEEE）会士。现任腾讯AI Lab主任，曾任微软人工智能及研究事业部首席研究员和研究经理。主要从事立体视觉、摄像机自标定、人脸表情识别等领域的研究，发明的平板摄像机标定法在全世界被普遍采用。

华为发布《自动驾驶网络解决方案白皮书》

专知会员服务

130+阅读 · 2020年5月22日

工程领域大数据和人工智能原则

专知会员服务

126+阅读 · 2020年3月26日

2019年人工智能发展白皮书，中国科学院大数据挖掘与知识管理重点实验室，附47页pdf

专知会员服务

162+阅读 · 2020年2月27日

从信息社会迈向智能社会—北京大学高文院士、黄铁军教授

专知会员服务

47+阅读 · 2020年2月20日