会员服务 ·

又有微软AI科学家流向产业，小鹏汽车迎来视觉感知负责人郭彦东

2018 年 8 月 11 日 量子位

李根发自凹非寺
量子位报道 | 公众号 QbitAI

太阳底下无新事，趋势变化不是无迹可寻。

一次次科技转关大同小异，无非钱动人动，最终潮水汹涌成势能。

2017年何小鹏由投资人亲任董事长，小鹏汽车便开启钱至人至加速度，上周又刚官宣一轮40亿元新融资，整体估值超250亿元。

同时，隐而未宣的是又有AI人才加盟。

这一次，微软计算机视觉科学家郭彦东，从微软总部而来，任职小鹏汽车AI产品部计算机视觉首席研究员。

郭彦东将承担的，是小鹏智能车AI视觉及感知相关的研发到应用。

这位80后科学家拿什么hold住？

△ 小鹏汽车AI产品部计算机视觉首席研究员郭彦东

郭彦东其人

虽然年轻，但郭彦东却是这波AI浪潮中最“生逢其时”的一代人。加入小鹏汽车前，郭彦东在AI及CV相关的研发已有14年之久。

郭彦东本科和硕士均学成于北京邮电大学，曾在汤姆森研究院(后更名为Technicolor)和中国移动任职，参与过中国第一代甚低码率可视电话的研发，也是中国移动彩信，手机电视，手机阅读等等企业标准/国家标准的制定者之一。

其后拿到普度大学全额奖学金赴美读博，师从美国工程院院士Jan P. Allebach与Charles A. Bouman。博士期间多项视觉领域的研究成果作为关键技术被应用在GE、HP等公司。

从博士毕业起，他就成为微软美国总部研究员，专注机器视觉和图像处理技术，是微软智能识别服务的关键贡献者。

在微软期间，郭彦东在计算机视觉，人脸识别上的研究成果被广泛应用在微软图像搜索(image.bing.com)、人工智能云服务(Microsoft Cognitive Service)、情感计算小冰，知识图谱（Microsoft Knowledge Graph）等微软的视觉相关产品中。

特别是2016年与2017年，郭彦东将大数据、知识图谱，以及深度学习的方法有机融合在一起，并和同事一起发起组织了微软百万名人识别竞赛MS-Celeb-1M——后来被业内称为人脸识别“世界杯”，在业界影响巨大。

△ 郭彦东学术论文列表节选

更关键的是，2016年开始，郭彦东领导了微软互联互通车项目的视觉感知部分，致力于将微软的视觉技术推广到汽车领域，主导研究开发了基于视觉的车内、车外感知功能。

也是如此专注的履历，郭彦东成为何小鹏全球挖角之旅中的重要专家人选。

为何要挖CV科学家？

在小鹏汽车，郭彦东一样名校博士、履历闪光的人都被称作专家。既是出于人才的尊重，也为体现产学研一提的决心——不再是科学家科研、工程师落地的二分法模式。

而在此体系中，视觉和感知，是小鹏汽车AI研发平台下一个极其重要的业务方向。

小鹏汽车从创立之初，就以“智能车”为目标，而视觉与感知是智能的基础与前提。智能化就是真正的理解车外与车内的场景，

△ 自动驾驶L0-L5

小鹏也对外多次介绍过，这将是一条从L2到L3，再最终迈入L4、L5的自动驾驶实现之路。

实际上，当前见怪不怪，有些辅助驾驶功能，作为独立模块，多可以有供应商提供了。

但这家造车新势力宁愿走得更难，希望自建AI视觉和感知研发，以此将AI用户体验与车辆安全熔于一炉，从而打造企业产品核心差异化。

郭彦东举例说，如将智能感知与决策把独立的辅助驾驶功能有机结合起来，才会打造出真正的智能车，才能够提高用户的体验。

更具体而言，一方面是车外的一些感知，如天气、场景、以及事件的识别和预测。

△ 小鹏汽车G3车顶上的360°摄像头

“一个司机在路上看到一辆校车停在路边，车门打开了，他会知道可能有小朋友从车里跑出来。但是什么时候我们的辅助驾驶功能车，搭载了智能模块以后也能做出类似的判断呢？这才是我们乐于看到的事情。”

车外场景之外，车内的感知对用户体验也同等重要。

如乘客、司机的识别，通过面部状态监控对注意力、情绪的识别，对安全和体验都尤为关键。

在郭彦东看来，面部监控对于L2到L3的跨越非常关键。

L2级辅助驾驶，需要手不离方向盘，以保持对车控制；而L3则手可离方向盘，但是需要用户随时接管方向盘。让用户随时能够恢复接管的前提就是需要知道用户的状态，提醒用户保持注意力集中。有统计数据表明，在辅助驾驶的情况下，用户反而会倾向于降低关注度。

“如果在驾驶过程中，让传感器实时感知，能够更好理解司机状态，不断做出反馈，那L2到L3之间过渡的核心问题便能得到安全性高体验性地解决。”

如此方案，听起来容易理解，但做起来其实并不容易。

小鹏汽车内部，已形成三步走共识。

△ AI Car

智能车系统三步走

按照数据量的三阶段：冷启动，系统模型训练，最后量产车场景迭代，将AI智能车系统分三步走。

第一步，无车/少车情况下，数据冷启动。

郭彦东认为可以依靠4方面，1）互联网大数据、2）仿真大数据、3）自有车队或测试车队大数据，4）中国真实用户大数据。

这位曾经参与微软Bing图片搜索核心技术研发的科学家说，互联网数据量非常之大，对早期算法的演进意义重大。

但也不是“完美无瑕”，毕竟这部分数据可能跟无人驾驶、智能车需求的数据分布不尽一致，标注也存在困难，需要用迁移学习的方式将互联网的结构化信息转移转换，赋能于车。

于是为了验证迁移学习的效果，同时也得到更多，更真实的数据，也需要关注仿真大数据、自有车队数据，以及用户真实数据等其他3个渠道。

总之，数据是深度学习之关键，也是智能车系统模型优劣的关键。

数据经过冷启动阶段，接下来就是搭建AI平台，训练深度学习模型。

郭彦东强调，在智能车的场景中，往往最有价值的就是长尾（long-tail）数据。

即那些低频场景下才能产生的数据，尽管长尾数据需要的种类、类别、数量都会非常多且有挑战，但越多长尾数据收集，就越能让智能车适应更多场景。

这也就要求需要有一个快速处理长尾数据能力的AI平台。业界也有很多相关的努力。

比如微软的custom vision，郭彦东博士本人就曾参与该项目的核心研究工作，可以在样本数很小的情况下，用非常短的时间，得到很准确的模型的。

虽然纯互联网系统平台与车用场景并不一致，技术上还有诸多挑战，但郭彦东坚信能克服，并在量产车场景下实现更快，更精准，能够处理长尾数据的智能闭环迭代。

作为整车厂，从无到有造车自然不易，但也是吸引郭彦东的核心“优势”之一。

有了数据，有了AI模型训练平台，还需要更多数据帮助迭代，而量产车正是最独一无二的场景。

此前在Uber和特斯拉发展自动驾驶时，业内便对这种路线颇为看好，核心原因之一便是有时刻不停地真实场景下的量产车“帮助”数据迭代和模型迭代。

所以郭彦东博士认为，一旦小鹏量产车上路，虽有更大更多数据反馈方面的繁重工作，但每一次都会让智能车系统更出色，迭代升级会更快，用户的反馈也能帮助智能车各项功能的调校。

这让AI视觉科学家们渴求。

更何况，比起在美国造车，中国有更广阔的市场空间和更独特的路况场景及驾驶行为。

回国造车

郭彦东坦承，回国参与一番事业，是每一个中国AI人才的梦想。

而且小鹏汽车所承载的市场机遇，前所未有。

有数据统计，美国汽车千人保有量是910辆，但中国千人只有154辆。

加之经济发展势头，未来5-10年的增长机遇，空间和趋势不言自明。

郭彦东说，想要做出更具影响力的产品，让所学技术被最多人使用，就要跳上最富潜力和前景的航海船。

小鹏汽车，对他而言就是这艘AI大航海时代的船。

当然，郭彦东也心怀教育传承之心，虽然他已同时是北京邮电大学和电子科技大学的兼职教授，但他希望能带领更多年轻人躬行实践，将所学化为所用。

他说在小鹏汽车还有一项重要使命——招募更多年轻有为的人才。

从业务划分，他认为自然可以分出个车内智能、车外环境感知、关键视觉技术模块开发和模型优化与融合的招聘方向。

但更重要的是年轻、干劲足，学习成长快，而且有自主自研的决心。

郭彦东说，拿来改和用很简单、坚持自研很难，但最难的路也最考验基础、最容易造就创新。

注：中美汽车保有量数据来源

【1】“Vehicle Statistics: Cars Per Capita”. Capitol Tires.

【2】 “环境保护部发布《中国机动车环境管理年报(2017)》”. 中华人民共和国环境保护部. Retrieved 2017-11-01.

作者系网易新闻·网易号“各有态度”签约作者

— 完 —

加入社群

量子位AI社群19群开始招募啦，欢迎对AI感兴趣的同学，在量子位公众号（QbitAI）对话界面回复关键字“交流群”，获取入群方式；

此外，量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募，面向正在从事相关领域的工程师及研究人员。

进专业群请在量子位公众号（QbitAI）对话界面回复关键字“专业群”，获取入群方式。（专业群审核较严，敬请谅解）

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

登录查看更多

相关内容

郭彦东

关注 0

郭彦东，博士，现任OPPO智能感知首席科学家（Chief Scientist），人工智能技术委员会主席。此前，在微软研究院（美国）担任研究员，小鹏汽车担任首席科学家，人工智能产品中心副总。他于2005年和2008年在北京邮电大学取得学士和硕士学位，于2013年取得普渡大学电气和计算机工程博士学位。他的研究兴趣广泛，包括计算机视觉、多模态感知融合、高精地图、以及自动驾驶和机器人相关技术。

视觉惯性SLAM综述

专知会员服务

87+阅读 · 2019年12月13日

【CCL 2019】特邀报告，语言与视觉多模态智能的进展，京东AI研究院常务副院长何晓冬

专知会员服务

49+阅读 · 2019年11月11日

知识图谱与语义理解，百度研究院王海峰院长，CCKS-2019：知识智能

专知会员服务

61+阅读 · 2019年10月25日

城市大脑与边缘计算，特邀嘉宾中国工程院院士高文，第八届全国社会媒体处理大会SMP2019

专知会员服务

57+阅读 · 2019年10月22日