CV 界学术明星肖建雄创业了，他想让自动驾驶像电脑一样普及

CV 界学术明星肖建雄创业了，他想让自动驾驶像电脑一样普及 | 厚势

2017 年 10 月 17 日 厚势彭君韬

出走学界、仍是商界新人的肖建雄，正用十分之一的成本构建自动驾驶解决方案。

从副教授到企业家，肖建雄对新身份适应得很快。

33 岁的肖建雄以企业家身份入选今年 MIT Tech Review —— 35 Innovators Under 35 ，这是由美国科技媒体 MIT Tech Review（麻省理工科技评论）自 1998 年创立的一项年度科技人物评选，旨在表彰全球 35 岁以内最杰出的 35 位创新人士。

相比于其他入选者，例如美国一流转基因公司 Caribou Biosciences 创始人 Rachel Haurwitz ，亦或是市值超过 30 亿美元的柔宇科技创始人刘自鸿，肖建雄还是个商界新人。2016 年 10 月，他正式创办了研究自动驾驶技术的企业 AutoX 。

今年 2 月，在一场由丹华资本和斯坦福华人创业者协会主办的斯坦福 AI 活动中，肖建雄介绍了他的自动驾驶公司 AutoX

在随后的半年时间里，AutoX 获得了加州自动驾驶牌照，其无人车已经能在硅谷的车水马龙间穿梭自如。在今年三月披露的首款测试视频中，AutoX 摒弃了市面上的主流传感设备，仅依靠低成本的摄像头，实现了无人车在不同天气情况下的路面行驶。

这也是 MIT Tech Review 看好肖建雄的重要原因。其科技主编 Will Knight 认识肖建雄已久，他认为：「肖建雄希望将无人车变得和计算机一样普及」。

在成为企业家之前，肖建雄拥有璀璨的学术生涯―― 2012 年世界顶尖计算机视觉大会 ECCV 最佳学生论文奖获得者；2012 年 Google Research 最佳论文奖获得者；普林斯顿计算机视觉和机器人实验室创始人；两度获得 Google Faculty Awards ；美国国家自然基金委员会研究奖……

不过，入选 35 Innovators Under 35 对肖建雄有着不同的意义，「这是我第一次在商业上得到认可。」

拓荒三维深度学习

肖建雄热爱计算机科学，聊到人工智能（AI）时，他整个人都兴奋了起来，「人类能造车、造机械，什么都有，但最缺智能化，AI 是很神奇的。」

同时，他又是一个很直观、喜欢视觉的人。个人喜好引领他在十多年前就读本科期间选择了计算机视觉――一种数学和工程学的结合体。肖建雄在读博士之前就读于香港科技大学，学习三维视觉重建，师从该校计算机科学与工程学的终生教授权龙，他是三维视觉的学术权威。

在港科大分别完成本科和硕士学位后，肖建雄进入麻省理工大学（MIT）。他在 2012 年获得的 ECCV 最佳学生论文奖，是在谷歌实习期间的作品《重建世界上的博物馆》（Reconstruct the world’s museum)。这是一篇有关室内场景重现的经典论文――用 Google 街景相机，在博物馆内部拍照，继而重现博物馆的内部三维构造。

在 MIT 的 4 年，肖建雄已经开始琢磨如何将深度学习和三维视觉结合在一起。当时，深度学习之父 Geoffrey Hinton 和他的学生 A Krizhevsky 在 NIPS（神经信息处理系统进展大会）递交的那篇经典论文《ImageNet Classification with Deep Convolutional Neural Networks》，让卷积神经网络大放异彩，深度学习也迅速地在计算机视觉领域普及，这对肖建雄的影响很大。

毕业后，肖建雄加入普林斯顿大学视觉研发团队，开始着手研究一个新领域――三维深度学习。深度学习被证明在一维（语音）和二维（图像）上有着显著的效果，但将深度学习模型应用在三维数据（点云、深度图像、网格）的深度特征表示，是在最近几年才开始慢慢流行起来。

近三年，肖建雄发起或参与了几乎所有关于三维深度学习的研究——参与发布目前最大的公共三维数据集（三维数据里的 ImageNet ）ModelNet 和 ShapeNet ；创建了研究三维深度学习的基础网络框架 Marvin，为后来者做了铺垫；推出 3D 卷积网络 Deep Sliding Shapes ，在 RGD-D 图像中研究三维物体的特征……值得一提的是，Marvin 的所有权如今属于 AutoX。

「这个领域是我们创建的。」提起三维深度学习，肖建雄毫不掩饰内心的骄傲。

由于该领域技术在自动驾驶中有可观的应用前景，原本相对独立的三个领域——计算机视觉、深度学习和机器人找到了应用的结合点。这种趋势在近几年愈发明显，今年，机器人学术圈正在筹办一个大会，取名「机器人学习大会」，以此推广机器人和机器学习的相关研究。肖建雄受邀成为第一届大会的领域主席。

不难理解，当肖建雄在 2016 年离开普林斯顿大学后，一条知乎评论写道，「肖教授走了，普林斯顿视觉岂不是又没人扛把子了。」

入局自动驾驶

「我觉得这个（企业家）可能更适合我。」对肖建雄来说，创业和做学术更像是一个数学问题。「做创业，90%会失败；做学术，90%会成功。」

初见肖建雄，一如照片上的样子：白衬衫，深蓝色的西装裤，棕色的尖头皮鞋，梳着整齐的飞机头，戴着一副眼镜，文质彬彬。他出生在广东潮州，和马化腾、李嘉诚是老乡。他的家里人，包括爷爷奶奶、父母、姐姐，都是商人。

早在 2013 年，肖建雄就有了创业的念头，但没有迈出那一步。在他看来，刚刚从 MIT 毕业，花 4 年时间读完计算机科学的博士学位，在技术层面还达不到通透的程度。此外，当时也没有多少人真正相信无人车的前景。

学术圈有比较完整的体系和硬件支持。对计算机科学家而言，创新点往往在算法上，许多流程可以按部就班地进行。肖建雄之前在学术界从事过四五十个项目，对做学术稍有些倦怠。每个学术项目的周期都很短，如同经历一个又一个小的循环，成就感自然不如自己开公司。

三年后，情况扭转。肖建雄从普林斯顿大学辞职，离开美国东海岸的新泽西州来到硅谷。知乎有人评价肖建雄创业，是典型的「学而优则商」。但真正踏出那一步，说服自己的内心，需要勇气。肖建雄是一个愿意冒险的人，「这项创业是我一辈子做到现在最大的一件事情，也是最激动的事情。」

事实上，2016 年也是一个入局的好时间。此前，肖建雄一手创办了普林斯顿大学的计算机视觉和机器人实验室，掌握了自动驾驶的核心视觉技术。

另一方面，自动驾驶市场也日趋成熟，成为如今人工智能在应用领域里最炙手可热的一块蛋糕，传统车厂和互联网新贵都在全面押注自动驾驶。就在上周，三星也获得了加州道路上测试自动驾驶汽车的许可，正式进入这片群雄逐鹿的战场。

自动驾驶分 5 个等级区分，这是由 SAE International（美国国际汽车工程师协会）制定的行业标准（美国交通部下属的国家高速路安全管理局也制定了一套划分，从 2016 年 9 月统一使用 SAE International的分类标准），这 5 个等级从最初级的 L1 辅助驾驶出发，到 L5 已经是完全智能化驾驶的水平。

目前，主流的自动驾驶解决方案将目标定在 L3（高度自动驾驶，由人类负责激烈的驾驶情况）和 L4（超高度自动驾驶，由系统负责激烈的驾驶情况）。在 2020 ~ 2023 年间，自动驾驶车辆能够在特定的路段，比如城市街道、高速公路上行驶。至于 L5 什么时候来临，有业内人士预计是 2030 年，持悲观态度的人甚至认为 L5 可能永远不会到来。

「实现完全无人驾驶没有这么快，有些初创公司完全押宝在完全无人驾驶，我觉得非常危险，我不清楚接下来五年他们怎么生存。」肖建雄说，但他仍然希望尽快普及无人车，AutoX 宣传口号也是 Democratizing Autonomy（普及无人车），而他准备从摄像头入手。

挖掘摄像头的潜力

作为重要的自动驾驶传感器，摄像头主要是用于目标识别和对象跟踪任务，如车道检测、交通信号灯检测、行人检测等。

完全基于摄像头的自动驾驶解决方案在市面上并不多见。Mobileye 算是自成一派，这家创立于 1999 年的公司致力于研究基于视觉的辅助驾驶科技，目前主要面向 L1/L2 等辅助驾驶；特斯拉也曾是 Mobileye 的用户，但因为一场事故，两家分道扬镳，现在正独立研发基于摄像头、前向雷达、超声波雷达和 GPS 数据的全自动驾驶方案。

主流市场常常质疑摄像头的安全性问题。相比之下，汽车厂商们更青睐于能够主动探测的激光雷达，后者不会受到视线的限制，通过反射光波测量反射时间来确定和物体之间距离，精度高。

肖建雄并不排斥激光雷达，但他始终认为，在目前这个阶段，摄像头应该扮演传感器中的主角。从今年三月公布的首支无人车测试视频来看，他们使用改造自林肯 MKZ 的原型车，装载 7 个单目摄像头，成功地在晴天、小雨、晚间、晚间多云这四种天气情况下行驶无人车。在肖建雄看来，「摄像头的潜力被低估了，理论上，摄像头可以做到比人眼还厉害。」

AutoX 种子轮投资方丹华资本的董事总经理万卉，在年初体验了最早的 Demo。她告诉记者，在创立 2 个多月的时间里，AutoX 成功让仅有两个低端摄像头的无人车在城市街道行驶，「这种强大执行能力给人留下深刻印象。」

万卉看好摄像头为主、传感器融合为辅的自动驾驶解决方案，「基于高端激光雷达与三维高清地图的解决方案始于 13 年前的 DARPA（美国国防部高级研究计划局）挑战赛，该架构有其历史包袱与局限性。人类不会发射激光，也不需要提前记录下道路上每一个细节，我们可能会迷路，但仍能安全驾驶。」

为了提高摄像头的安全性，AutoX 下了很大功夫。硬件上，装在 AutoX 无人车上的 7 个单目摄像头，是从 AutoX 团队购买的 300 多种摄像头中所甄选出来的，但依然没有完全符合要求。肖建雄列举了一长串摄像头标准，包括符合车规硬件标准、自动化、高动态范围成像、夜视以及算法需求等。

但这不会造成太大的麻烦，伴随手机市场过去 10 年的发展，摄像头工艺也跟着突飞猛进，厂商有能力制造出满足需求的摄像头。「我们知道需要什么，我们可以让厂商提供定制。不是他们做不出来，是从来没有人和他们提过。」肖建雄说。

软件上，基于摄像头的解决方案对算法的鲁棒性要求很高。这是 AutoX 的优势，除了肖建雄外，公司 20 多人都来自高等院校或谷歌、Facebook。

除了技术层面，成本也是一个重要的考量因素。到 2019 年，AutoX 将提供基于摄像头的 L2.5/L3 自动驾驶软件解决方案。作为创业者，肖建雄需要盘算自动驾驶在商业上的可行性。动辄上万美元的激光雷达，直逼一辆乘用车的市场价，相比之下，几十美元的摄像头就变得无足轻重了。

「我们现在主要是以摄像头为主，然后把摄像头的软件模块提供给感兴趣的汽车厂商。」肖建雄没有披露更具体的应用场景，但提到了两种适合 AutoX 的落地方式：

第一种是特殊场景，比如运输卡车、机场巴士等在限定路线和区域内的完全无人驾驶；
第二种是半自动化驾驶，即在乘用车上实现 L2/L2.5/L3 的水平。

肖建雄从内心觉得，这是一件正在改变社会的事情。正如他人尽皆知的外号 Professor X 所代表的另一个人物——查尔斯教授（Charles Francis Xavier ，漫威漫画 X 战警里的重要角色），「不是因为这个角色有什么超能力（才厉害），而是能集结社会中的能人异士去做一件很难但对社会有贡献的事情。」

以下是肖建雄和我们探讨关于无人车技术的内容：

AutoX 具体使用的是哪款摄像头？

具体的摄像头我们没有定，我们大概买了 300 种摄像头。单目双目都有用，双目的其实就是两个单目的同步起来。RGB-D 没有看到一个特别好的，因为 RGB-D 用不了就得靠 LiDAR。传统的 Kinect 和红外线不能看太远，会受到阳光的影响，白天开车阳光照射，有很大的干扰。所以基本上没有太多选择，我们就用单目相机。

你认为可以通过摄像头解决一切安全问题吗？

如果说不计成本快速实现无人车，当然什么传感器都上，科学上，你加多一点传感器肯定好过没有，就算它再差，但最起码多一层保险总好过没有，但这是科学上的。实际商业上，不可实现。因为你加很多传感器，价格非常昂贵，最后没有任何经济价值。无人车比雇几个全职驾驶员还贵的话，就没有意义了。

另外，硬件也没有准备好。更多东西，就有更多风险，比如说有了不同的东西，每一个都可能失败，一个失败就不稳定。做实验的时候，因为工程师检测半天可能不会有什么问题，但现在如果是真正商用，把车交给用户，什么千奇百怪的事情都可能发生。如果质量不好，任何一个传感器失效，都会出事。

汽车行业这么多年一直在测试稳定性，它们做的东西其实就是刹车油门方向盘，但为了这么简单的机械工艺，它们还进化了上百年才能把将它提升到一个很高的安全系数上。今天的方向盘已经安全很多，像 ABS（防抱死）提升整个系统的安全性能，也是迭代很多年才进化到今天这个地步。系统里如果加入了越多的东西，不完美的可能性就越高。

怎么克服摄像头中的弊端？比如说过度曝光，比如弱光环境，咱们只是在算法上做一些调整吗？

对摄像头也有一定的要求，不全是算法。当然算法要非常好，非常鲁棒，这是必须的，这是我们的技术优势。摄像头方面，一是强曝光的 High Dynamic Range（高动态范围成像），HDR 的要求非常高；其次就是夜视。其实，理论上，相机可以做到比人眼更厉害，但因为现在没有这种需求，没有人用它，自然就没有生产。

摄像头对处理器的带宽要求很高吗？

带宽要求挺高的。一般来说，现在的技术都已经承受了，比方说 USB 是很糟糕，但 USB 已经非常快。比方说在工业界，大家用 VMSL 来，这个是符合车规级的一个连接。现在很多特别新的电动汽车厂，他们一直在推 Automotive Ethernet（汽车以太网），我觉得这也非常好，因为自动化，以前就是用 Canvas ，这是个非常老的、非常糟糕的 Protocol Bandwidth（协议带宽）。

深度学习在 AutoX 整个决策过程中扮演什么角色？

我觉得深度学习非常重要，我们在各个方面、各个角落都用到深度学习。很多公司整天把深度学习当回事，把它当广告词。但我觉得深度学习有点像 C++，非常底层，不是说它不好，而是说它非常好，好到一定程度被普及，就变成了常识。

AutoX 的解决方案会是端到端的吗？就是把摄像头的数据直接输入到一个模型里，然后来做决策？还是会分权？

我们在 ICCV （由 IEEE 主办的国际计算机视觉大会）发表过一篇文章，里面有详细比较过，说端到端的效果不是很好。你可以想象一下这对数据要求非常高，就比如同一条路的车都不一样，那么多辆车，排比组合都不一样的话，每一个都得要训练数据。下次再换条路开，我觉得可变性太大，导致端到端需要用作训练的数据量非常大，可能是整个人类开车一两千年的数据量。

AutoX 会用哪种处理器？会用 GPU 来大量处理这些数据？

现在还没有定下来，因为没有一款成熟的处理器可以用。我们和各大厂商都有接触，和英特尔、NVIDIA、Media Tech、MTK 有紧密关系。我觉得问题就是目前这四个厂商都没有任何一个真正能可靠的、能用的处理器。

你觉得芯片定制化会是自动驾驶的一个方向吗？

不一定是定制。比如说像卷积神经网络，基本操作就是卷积。不管使用 GPU、 FPGA 还是更定制化的芯片，都是为了实现卷积。如果有芯片 ACIS 或者 FPGA 出来就是卷积，会有更好的效果，用通用芯片我认为是一种资源的浪费。关于卷积在自动驾驶中的作用，一开始大家不清楚是不是卷积，逐渐达成共识后，甚至芯片都可以定制化到卷积。

不同汽车之间，数据可以互相通用吗？比如说卡车上的视觉数据也能用在训练一个小汽车上面

可以，但那不是完全通用。但是 90%可以。

但是，拍摄的角度包括摄像头的位置都会有很大不同

所以我就说 90%可以（通用），为什么？你的算法要够鲁棒，设计时还要多加一些变化，万一摄像头稍微动了一下，怎么办？这些数据可以增强它们的鲁棒性、独创性，但之后在某一款车型上你还是需要大量定制，所以我觉得需要通用和定制的结合。

这也是我们的策略。我们未来的产品可能会有各种形式，然后有一个 centralized（集中）的 dataset（数据集），圈好之后，为每个厂商的每个产品进行定制，确保用户体验在那个环境里是最优的。既不是 one fix everything，也不是说完全不共享。

摄像头怎么和 HD Map（高精地图）来一起工作？LiDAR（激光雷达）和 HD Map 合作的比较多，摄像头这种有哪些优势或者缺点？

优势很明显，就是能够快速落地产品化，因为价格便宜，然后硬件制造也容易实现。我觉得称不上缺点，大家没做过，像 Mobileye 做过，其他很多厂商做得都比较少。事实上，我们内部发明了许多基于摄像头的定位技术。没人做只能说，难度比较大。

还有就是盲目崇拜 LiDAR ，其实 LiDAR 在定位方面也有局限性。比如说一个最极端的状况，试想在一个很大的操场，LiDAR只能看一百米，因为操场很大，超过一百米的半径，你的车在中心的时候，周围一圈扫起来都是平面，什么都没有，没有树也没有房子，这时候科学上就是不可能做到精确定位。很多人没意识到这个极端状况，国内的很多地方是十条道，还有交叉路，这就很像广场，什么都没看到，这样就很难定位。我觉得美国这些居民小区、旁边有楼的还可以操作。

另外，高精地图每两个月扫一下，但像山间、林间小路里，树会长大、会落叶。比如说在 MIT，东部一到秋天叶子两星期内全部落完了，然后高清地图上次扫的是有叶子，这种情况下，如何对齐就不是很清楚。

我觉得高精三维地图是个很好的设想，怎么落地还有很多现实挑战。比如说在波士顿，下雪风吹，每个小时雪都是不一样的，怎么定位？我觉得用 LiDAR 很难定位，长得太不像了，LiDAR 是靠形状，形状都不一样就没办法定位，分辨率非常有限。

大家觉得用 LiDAR 就一定好，我觉得不一定。如果 LiDAR降价或者真正量产，我们会马上使用 LiDAR，我以前发表过很多文章做 LiDAR。只是用 LiDAR 需要现实一些，就算用 LiDAR ，软件也要做到非常好。

传感器是怎么样的一个配置？AutoX 是以摄像头优先的一个解决方案，加上一些其他的传感器吗？

我们现在以摄像头为主，然后将摄像头模块，比如说各大汽车厂感兴趣，我们可以把摄像头软件模块提供给他们。像特斯拉、 Mobileye ，现在真正落地的产品都是靠摄像头，奥迪 A8 也是基本靠摄像头，前面的四线 Lidar 基本上是最后一层防线扫障碍物。

文章来源：机器之能

责任编辑：Sasa

-END-

厚势往期推送精选

文章精选

企业家

马斯克和贾跃亭｜福特CEO下台｜正道汽车仰融

任正非裁员｜电池大牛凯尔提离开特斯拉

智能驾驶

BBC自动驾驶纪录片｜自动驾驶第一案，谷歌讼Uber

高精地图｜自动驾驶的灾难｜英特尔收购Mobileye

苹果公司造车？库克又不傻！iPhone的挣钱效率比造车高多了！

OTA 助车主逃离飓风魔爪，特斯拉的又一次完美表演

自然杂志：自动驾驶商业化面临哪些心理障碍？

导致大规模失业？恰恰相反，自动驾驶将增加社会整体就业

为什么最早发明无人驾驶汽车是谷歌而不是传统汽车制造商？

在数据为王的时代，自动驾驶数据共享真的可行？

新能源汽车

麦肯锡：电动卡车市场为何在此刻集中爆发？（上）

麦肯锡：电动卡车市场为何在此刻集中爆发？（下）

项目和评论

以色列最强10家自动驾驶创业公司

37个汽车分时项目盘点｜百度投资蔚来汽车

马化腾或为共享单车最大赢家｜汽车产业3大趋势

Momenta获$4000万B轮

百度系自动驾驶初创公司 Pony.ai 的突围之路

这些大神从Google出走，创办了五家（命运各异的）无人车公司

戴世智能带你读懂自动驾驶高精度行车定位技术

无需基础知识，理解自动驾驶高精度行车定位技术

厚

势

汽

车

为您对接资本和产业

新能源汽车自动驾驶车联网

联系邮箱

bp@ihoushi.com

点击阅读原文，查看综述论文「自动驾驶一周要闻回顾（1008~1014）」

登录查看更多

相关内容

AutoX

关注 0

AutoX是中国RoboTaxi的领跑者，致力于打造无人驾驶核心大脑的软硬件一体化系统。是中国目前唯一一家实现城市公开道路完全空车无人驾驶RoboTaxi运营的公司，具有国内规模最大的RoboTaxi车队。 AutoX由世界著名计算机视觉和自动驾驶领域专家、普林斯顿大学教授、MIT麻省理工博士肖健雄于2016年9月创立，总部位于深圳，在北京、上海、广州、硅谷、常州均设有研发和运营中心，是中国规模最大的RoboTaxi自动驾驶公司。AutoX产品涵盖L4/L5级别自动驾驶域的全套系统，是目前国内唯一一个具备L4/L5级别域控制器自主研发能力的公司。 2019年AutoX获得了全球第二张加州自动驾驶出租车试运营牌照。2020年AutoX获得了全球第二张加州全无人驾驶牌照，也是中国第一家获得该牌照的公司，许可去掉安全员进行无人驾驶。在美国车辆管理局公布的全球自动驾驶企业测试报告中，AutoX名列全球第三名、中国第一。AutoX也是目前国内唯一一个同时获得深圳、上海、广州等多个一线城市自动驾驶牌照的公司。

CVPR 2020 最佳论文与最佳学生论文！

专知会员服务

36+阅读 · 2020年6月17日

华为发布《自动驾驶网络解决方案白皮书》

专知会员服务

130+阅读 · 2020年5月22日

【西安交大】深度学习目标检测方法综述

专知会员服务

164+阅读 · 2020年4月21日

【哈佛《CS50 Python人工智能入门》课程 (2020)】

专知会员服务

116+阅读 · 2020年4月12日