文:苏磊(硅谷 · 洪泰智造工场 投资经理)
目前,自动驾驶大放异彩,创业、投融资以及并购活动频繁。人工智能的再次崛起,让传统的车厂望尘莫及,需要大量的收购弥补技术缺陷,同时也让互联网企业突然有了和百年车厂竞争的底气。
今天,我们今天就来介绍人工智能——基于深度学习的人工智能是如何推动自动驾驶飞速前行的。在这之前,我们先来认识一下自动驾驶的定义和人工智能的发展。
自动驾驶的定义
目前业界一般采用的是SAE(美国汽车工程师协会)和NHTSA (美国国家公路交通安全管理局)的自动驾驶分级方法,SAE分为6级,而NHTSA分为5级。不过在Tesla 致命事故之后,2016年底,NHTSA采用了SAE的分级方法,认为SAE的分级更清晰合理,解释更为具体。我们看下SAE的分级的官方说明。
中文版(NHTSA和SAE分级说明)
这个分级,是按车辆的自动化程度从低到高来分为无自动化(Level 0),驾驶辅助,部分自动化,有条件自动化,高度自动化和完全自动化(Level 5) 6个级别。比较详尽的列举了在每一种级别下,人和车载驾驶系统对于车辆本身各部分功能的控制权的划分。
我们来举几个例子说明一下,笔者人生第一辆车,2001年的二手手动挡捷达,全身唯一而且是半自动装置大概就是驾驶室的车窗,不用手摇,这俩亲爱的捷达在Level 0的位置。我们看看特斯拉,很多人以为装载了Autopilot 系统的特斯拉是无人驾驶,其实它只是在自动驾驶Level 2的位置,开启Autopilot后双手也必须握在方向盘上,特斯拉在中国发生事故后,撤下了自己混淆概念不负责任的“无人驾驶”字样,感兴趣的读者可以查阅一下。而Google则是一上来就冲着Level 5的目标,不过目前在自动驾驶Level 4的位置。我们一般认为在Level 4和Level 5时,车辆可以被称为无人车,Level 4和Level 5 的区别在与Level5是全天候的完全无人驾驶,level 4还限定在部分天气和路面情况下。
所以我们下面用“自动驾驶”统称所有分级内的车辆,而涉及“无人车”“无人驾驶”均指Level 4&5的自动驾驶。
人工智能的发展
人工智能是最近最火的一个词,究竟什么是人工智能?
首先,人工智能不是一项具体的技术,而是一门让机器拥有智慧的学科,其中包含机器智能化的各种方法。我们目前所处的时代算是人工智能2.0时代,在人工智能1.0时期人们试图用定义规则的方式来描述这个世界好,让机器理解,但是很快发现我们对世界的绝大部分认知,都并不会通过书面语言清清楚楚的、像一系列任务一样描述出来。不存在能够解决每一个真实世界学习情境的算法。所以从固定规则的人工智能系统所面临的问题可以得出这样的推论:人工智能系统需要能通过原始数据自我生成规则从而来了解世界的能力,这项能力即“机器学习”(Machine Learning)。
所以,机器学习是实现人工智能的一种途径 。机器学习按学习方法可以分为4类,包括:
1. 监督学习:人为标注训练集目标
2. 无监督学习:不用标签,而是找出数据中隐含模式
3. 半监督学习:介于两者间,训练集目标少量标注,大量无标注
4. 增强学习:通过观察周围环境的反馈做判断的增强学习(Alpha Go围棋)
机器学习算法的性能在很大程度上依赖于给定数据的表征 (representation)。然而, 对于许多任务来说,我们很难知道应该提取哪些特征表示。解决这个问题的途径之一是使用机器学习来发掘表示本身,而不仅仅把表示映射到输出。这种方法我们称之为表征学习 (representation learning)。
而目前最火的深度学习 (deep learning) 就是一种表征学习方法,把原始数据通过一些简单的但是非线性的模型转变成为更高层次的,更加抽象的表达。通过足够多的转换的组合,即使非常复杂的函数也可以被学习。人工智能,机器学习,表征学习,深度学习的关系请看下面的维恩图。
《Deep Learning》作者:Ian Goodfellow, Yoshua Bengio and Aaron Courville
无人驾驶的技术路线
目前在通往无人驾驶的道路上,有两条路线。
第一条:从发展帮助驾驶员更安全和更容易的驾驶技术开始,逐渐过渡到完全自动驾驶。这条目前定位于Level 1-3的路线,叫做ADAS(Advanced driver assistance systems),高级驾驶辅助系统,包括前装和后装市场。这一路线的参与者主要是目前各大现有主力车厂,包括Tesla。以及向这些主机厂供货的供应商,包括在ADAS 视觉方案中占据大部分市场的以色列公司Mobileye。
第二条:直接瞄准Level 4&5的无人驾驶技术。目前的参与者包括各大跨界互联网公司,包括Google, Uber, 百度等,也包括众多的创业公司。
目前双方阵营都对各自的技术路线有信心,也有争论,Mobileye联合创始人及CTO Amnon Shashua 教授在CVPR 2016 会议发言中讲“无人驾驶是ADAS发展自然而然的结果”,而Google 无人车前CTO Chris Urmson则在TED的演讲中曾说直接面向Level 4&5是无人驾驶的唯一道路,而“如果期待从ADAS发展到无人驾驶,就好像期待一个人跳啊跳,然后有一天可以突然可以飞起来。”
我们不会在早期否定任何一条路线,上面提到目前被验证最有效的通向人工智能的方法是深度学习,而且事实上在目前自动驾驶领域绝大部分公司都是采用深度学习,所以我们下面介绍的内容也是深度学习和自动驾驶的结合。
目前深度学习已经发展处多种模型
• 卷积神经网络(Convolutional Neural Network)-监督学习
• 循环神经网络(Recurrent Neural Network )-监督学习
• 受限玻尔兹曼机(Restricted Boltzmann Machine)-无监督学习
• 深度信念网络(Deep Belief Network)-无监督学习
• 作为RBM堆叠的深度自编码器(Deep Autoencoder as stack of RBMs-无监督学习
• 去噪自编码器(Denoising Autoencoder)-无监督学习
• 堆叠的去噪自编码器(Stacked Denoising Autoencoder)-无监督学习
• 作为去噪自编码器堆叠的深度自编码器(Deep Autoencoder as stack of Denoising Autoencoders)-无监督学习
• 多层感知器(MultiLayer Perceptron)-监督学习
• Logistic 回归-监督学习
• 等等
自动驾驶与人工智能(深度学习)
无论是ADAS还是无人驾驶,需要解决的技术问题,主要分为三类:
1. 环境感知
2. 决策规划
3. 执行系统
智行者
ADAS再多出一类:对驾驶员驾驶状态的监控。
关于执行系统,作为独立的系统各环节都已经比较成熟,而且很多普通有人驾驶汽车上已经比较成熟的应用, 所以自动驾驶主要的技术难点在与感知和决策系统。
环境感知包括传感器融合(整合多传感器的数据),物体检测(发现障碍物),物体分类(“障碍物是行人还是其他”),物体分割(“如行人位于道路哪侧”),障碍物跟踪(“行人在向哪方移动”)和道路识别等。
深度学习在环境感知层面的应用包括传感器和功能模块中的应用,其中在传感器模块上的应用包括:
1、摄像头:目标检测跟踪识别、距离深度估计、图像语义分割、序列预测识别、视差光流计算
2、激光雷达:点云目标检测识别、点云分割、路沿提取
3、毫米波雷达:降噪、目标检测等
从功能模块上的应用包含:
1、目标检测、跟踪、识别、位置、占据、速度、行为等感知
2、交通标志、地面标志、车道线、停止线、人行道、指路标志等的地图属性提取注册3、语义标志、底层特征、IMU+GPS融合、里程计等定位功能
决策规划包含三部分:定位、决策、路径规划。 深度学习在决策系统方面的应用包括: 找出可行驶区域,拟人化决策并寻找最优化的路径规划。
在环境感知部分,深度学习在ADAS与无人驾驶基本上研究方向一致,定位方面无人驾驶比起ADAS不止关注车道线间,而且需要地图匹配,通过高精度地图与本地的交通信息互动。在决策规划部分,无人驾驶需要有实时的全局规划的能力,而ADAS更关注规避制动之类的瞬时控制规划。我们接下来举几个例子来说明自动驾驶与深度学习结合的应用。
自动驾驶+人工智能(深度学习)举例
环境感知-图像识别
自动驾驶所有的传感器中,来自摄像头的视频数据所包含的信息是最丰富的,要分析这些信息并将分析结果给决策系统做出判断需要对图像进行识别,图像识别的任务包括对物体的检测,识别,分类及图像分割等。
1. CNN 卷积神经网络-物体识别
Krizhevsky, A., Sutskever, I. and Hinton, G. E.
<ImageNet Classification with Deep Convolutional Neural Networks>. 2012
在CNN卷积神经网络输入原始的图片,如上图中的验证码数字3,通过卷积层经过二次抽样完成特征提取,然后通过卷积神经网络的全连接层完成分类的步骤,来判断出数字。
图中下方四幅图展示了经过CNN卷积神经网络的判断后,图片中物体可能为哪一种的百分比。
2. FCN 全卷积网络-图像分割
所谓图像分割指的是根据灰度、颜色、纹理和形状等特征把图像划分成若干互不交迭的区域,并使这些特征在同一区域内呈现出相似性,而在不同区域间呈现出明显的差异性。
Jon Long*, Evan Shelhamer*, Trevor Darrell (CVPR 2015 最佳论文)
http://people.eecs.berkeley.edu/~jonlong/long_shelhamer_fcn.pdf
FCN将传统CNN中的全连接层转化成一个个的卷积层。如下图所示,在传统的CNN结构中,前5层是卷积层,第6层和第7层分别是一个长度为4096的一维向量,第8层是长度为1000的一维向量,分别对应1000个类别的概率。FCN将这3层表示为卷积层,卷积核的大小(通道数,宽,高)分别为(4096,1,1)(4096,1,1)(1000,1,1)。所有的层都是卷积层,故称为全卷积网络。
上图右上角中的猫, 输入AlexNet(ImageNet图像分类竞赛2012冠军模型), 得到一个长为1000的输出向量, 表示输入图像属于每一类的概率, 其中在“tabby cat”这一类统计概率最高。在中间这张图中,用FCN 全卷积网络将CNN网络中最后的全连接层卷积化(Convolutionalization)换成卷积层,这样则含有tabby cat的部分就会被刺激,狗的部分则不会,我们就知道亮点的这部分是Tabby Cat。 同理,图中下部经过FCN全卷积网络,便可得到女人和马的画面分割。
除此外,在物体检测方面,还有R-CNN(区域卷积神经网络)和Deep residual network(深度残差网络)两类新的解决方案,限于篇幅,暂不做详细介绍了。
3.FCN 在自动驾驶中的图像分割应用
利用FCN卷积网络对摄像头获得的视频信息进行图像识别和分割后,便可得到画面中按不同颜色标记的物体是什么和所在的位置。比如红色的是建筑物,灰色的是天空,深褐色是人行道,橘色是道路的标识等等。
4.RNN循环神经网络-路面状态监测
运用RNN循环神经网络, 我们还可以从声音的角度来判别路面的情况。在图片下方的是干燥路面和潮湿路面的声音图谱,我们可以把这些图谱当做一副图,用RNN来处理这幅图。我们将这幅图谱滑进的数据不断喂给RNN网络,让其判断路面的干湿情况。因为我们知道,有时即使不下雨,路面也是湿滑的,这对行车安全非常重要,而这一点其他传感器不易检测到。未来,还可能判断路面的材质还有路面的质量进行检测。
5. 深度增强学习-路径规划
MIT:Prof. Sertac Karaman
我们要让车辆在复杂的弯道中找到最优的路径,之前我们采用的方法是优化控制,而现在我们可以采用深度增强学习的方法,通过模拟大量多次的转弯,找出弯道路径和转弯速度都最优化的选择。
ADAS+人工智能(深度学习)
相比于无人驾驶,有一点是ADAS特有需要关注的问题,那便是驾驶员状态的监控。
2014年的统计,全国一般以上交通事故中因分心驾驶行为导致的交通事故共有74746起,占事故总数的37.98%,造成21570人死亡。2014年全国统计的简易交通事故(财产轻微损失、人员轻微受伤的交通事故)656.3万起,其中由于分心驾驶行为导致的交通事故共有309.9万起,占到全部简易事故的47.22%。根据国际标准化组织(ISO)的定义,分心驾驶是指驾驶时注意力指向与正常驾驶不相关的活动,从而导致驾驶操作能力下降的一种现象。因驾驶人视线偏离或分心产生的注意力不集中是引发交通事故的常见且重要的原因,这一诱因在追尾碰撞事故中表现得尤为显著。
驾驶者驾驶中的很多行为细节,能够透漏出驾驶者的驾驶状态以及潜在的安全隐患,如果可以监测到这些细小的行为,并对驾驶者进行提醒和警告,则能够降低驾驶事故的发生率。
MIT:Prof. Lex Fridman
目前对驾驶者驾驶状态的监测按照监测的难度从易到难(图中从左到右)包括:身体姿势,头部姿势,眨眼频率和时间,视线判别,疲劳状态,眼睛姿势,扫视,眨眼动态,认知复核,瞳孔直径和眼环微小扫视运动。
MIT:Prof. Lex Fridman
对于绝大部分驾驶者驾驶状态的监测都是相似的,就是监测驾驶者的面部,面部包含了太多的信息。首先要对有很多“噪声”的原始数据进行预处理,比如自动校准(Automated calibration),视频稳定化(Video stabilization),人脸摆正(Face Frontalization) 还有动作放大(Motion Magnification),然后将这些原始的眼部图像的像素喂给DNN深度神经网络,并将从原始脸部图像中提取出的各种特征的像素也喂给DNN深度神经网络,得到诸如驾驶员视线方向,疲劳程度,情绪等驾驶状态。我们各举身体姿态和面部(眼睛)的监测的一个例子看一下:
1. 身体姿态
要做身体姿态的监测,我们需要监测一些节点,比如肩部的节点,头部的节点,手臂肘关节,膝关节的节点。我们用CNN 卷积神经网络,对输入图片进行回归,得到输出图片,CNN网络会给出你正在监测的部位的XY值,比如左手腕,右手腕,然后用一个级联回归(Cascade Regression)给出所有的这些节点位置。 然后通过一些条件的限制,比如手臂运动的范围,和运动速度和画面的帧数的关系, 便可通过逐画面做出预测和优化,尽可能减小预测的误差。
或者如上图,可以把所有的画面都作为输入,如右图, 把他们当做是不同的渠道,比如RGB色度系统有红黄蓝三个通道, 利用3D CNN卷积神经网络一次性来判断身体姿势。 3D CNN模型的主要特性有:1)通过3D卷积操作核去提取数据的时间和空间特征,在CNN的卷积层使用3D卷积。2)3D CNN模型可以同时处理多幅图片,达到附加信息的提取。3)融合时空域的预测。
这样我们就能判断驾驶者的手是不是在方向盘上,驾驶者的头部的位置以及驾驶者上身的身体姿态。
2. 驾驶者目光朝向
MIT:Prof. Lex Fridman
这是一辆特斯拉的测试车, 右下角图显示Autopilot 在启用状态,特斯拉在掌管车辆的驾驶,但是我们之前讲过特斯拉是SAE分级Level 2的车辆,所以驾驶者的双手不能脱离方向盘。
车内外共装有5个摄像头,一个监控汽车前端,一个监控仪表盘,一个监控方向盘,一个监控驾驶员的面部,一个监控驾驶屏幕。驾驶员目光朝向的监测其实还是一个分类的问题, 把从摄像头中得到的原始像素输入进CNN卷积神经网络,给定6个方向的分类,朝前,朝左,朝右, 朝向中控仪表盘,左后视镜,右后视镜,然后给每一个分类上大量的画面,CNN网络会对驾驶员目光的朝向做出令人满意的实时判断结果(第一行中间图)。
对人脸面部表情识别,肢体动作捕捉和跟踪目前还是非常前沿的研究,要达到很高的实时性和精确度非常不易,洪泰智造工场A+Labs在硅谷投资的一家在斯坦福大学孵化器StartX孵化的公司,在这一领域的成果达到了世界领先水平。
自动驾驶在人工智能,特别是深度学习的推动下,正走在快速发展的轨道上,两者结合的应用涉及从感知到决策到控制执行,从算法到硬件的方方面面,限于篇幅和知识限度,我们只能对部分应用大概介绍,其中参考了众多顶尖研究者的工作,对可考的原作者注明了出处。我们会对自动驾驶,及其他人工智能和智能硬件的结合继续保持关注,也欢迎各位与我们联系赐教交流。
新一代技术+商业操作系统:
AI-CPS OS
在新一代技术+商业操作系统(AI-CPS OS:云计算+大数据+物联网+区块链+人工智能)分支用来的今天,企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中,利用AI-CPS OS形成数字化力量,实现行业的重新布局、企业的重新构建和自我的焕然新生,在行业、企业和自身三个层面勇立鳌头。
数字化力量与行业、企业及个人三个层面的交叉,形成了领导力模式,使数字化融入到领导者所在企业与领导方式的核心位置。
分辨率革命:这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切,进而理解和更加精细地进行产品控制、事件控制和结果控制。
复合不确定性:数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验,其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域:技术、文化、制度。
边界模糊化:数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化,还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。
领导者无法依靠某种单一战略方法来应对多维度的数字化变革。随着变革范围不断扩大,一切都几乎变得不确定,即使是最精明的领导者也可能失去方向。面对新一代技术+商业操作系统(AI-CPS OS:云计算+大数据+物联网+区块链+人工智能)颠覆性的数字化力量,领导者必须在行业、企业与个人这三个层面都保持领先地位。
如果不能在上述三个层面保持领先,领导力将会不断弱化并难以维继:
重新进行行业布局:你的世界观要怎样改变才算足够?你必须对行业典范进行怎样的反思?
重新构建你的企业:你的企业需要做出什么样的变化?你准备如何重新定义你的公司?
重新打造新的自己:你需要成为怎样的人?要重塑自己并在数字化时代保有领先地位,你必须如何去做?
子曰:“君子和而不同,小人同而不和。” 《论语·子路》
云计算、大数据、物联网、区块链和 人工智能,像君子一般融合,一起体现科技就是生产力。
如果说上一次哥伦布地理大发现,拓展的是人类的物理空间。那么这一次地理大发现,拓展的就是人们的数字空间。
在数学空间,建立新的商业文明,从而发现新的创富模式,为人类社会带来新的财富空间。
云计算,大数据、物联网和区块链,是进入这个数字空间的船,而人工智能就是那船上的帆,哥伦布之帆!
人工智能通过三个方式激发经济增长:
创造虚拟劳动力,承担需要适应性和敏捷性的复杂任务,即“智能自动化”,以区别于传统的自动化解决方案;
对现有劳动力和实物资产进行有利的补充和提升,提高资本效率;
人工智能的普及,将推动多行业的相关创新,开辟崭新的经济增长空间。
新一代信息技术(云计算、大数据、物联网、区块链和人工智能)的商业化落地进度远不及技术其本身的革新来得迅猛,究其原因,技术供应商(乙方)不明确自己的技术可服务于谁,传统企业机构(甲方)不懂如何有效利用新一代信息技术创新商业模式和提升效率。
“产业智能官”,通过甲、乙方价值巨大的云计算、大数据、物联网、区块链和人工智能的论文、研究报告和商业合作项目,面向企业CEO、CDO、CTO和CIO,服务新一代信息技术输出者和新一代信息技术消费者。
助力新一代信息技术公司寻找最有价值的潜在传统客户与商业化落地路径,帮助传统企业选择与开发适合自己的新一代信息技术产品和技术方案,消除新一代信息技术公司与传统企业之间的信息不对称,推动云计算、大数据、物联网、区块链和人工智能的商业化浪潮。
给决策制定者和商业领袖的建议:
超越自动化,开启新创新模式:利用具有自主学习和自我控制能力的动态机器智能,为企业创造新商机;
迎接新一代信息技术,迎接人工智能:无缝整合人类智慧与机器智能,重新
评估未来的知识和技能类型;
制定道德规范:切实为人工智能生态系统制定道德准则,并在智能机器的开
发过程中确定更加明晰的标准和最佳实践;
重视再分配效应:对人工智能可能带来的冲击做好准备,制定战略帮助面临
较高失业风险的人群;
开发人工智能型企业所需新能力:员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说,创造兼具包容性和多样性的文化也非常重要。
新一代技术+商业操作系统(AI-CPS OS:云计算+大数据+物联网+区块链+人工智能)作为新一轮产业变革的核心驱动力,将进一步释放历次科技革命和产业变革积蓄的巨大能量,并创造新的强大引擎。
重构生产、分配、交换、消费等经济活动各环节,形成从宏观到微观各领域的智能化新需求,催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革,深刻改变人类生产生活方式和思维模式,实现社会生产力的整体跃升。
新一代技术+商业操作系统(AI-CPS OS:云计算+大数据+物联网+区块链+人工智能)正在经历从“概念”到“落地”,最终实现“大范围规模化应用,深刻改变人类生活”的过程。
产业智能官 AI-CPS
用新一代技术+商业操作系统(AI-CPS OS:云计算+大数据+物联网+区块链+人工智能),在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能;实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。
长按上方二维码关注微信公众号: AI-CPS,更多信息回复:
新技术:“云计算”、“大数据”、“物联网”、“区块链”、“人工智能”;新产业:“智能制造”、“智能驾驶”、“智能金融”、“智能城市”、“智能零售”;新模式:“案例分析”、“研究报告”、“商业模式”、“供应链金融”、“财富空间”。
本文系“产业智能官”(公众号ID:AI-CPS)收集整理,转载请注明出处!
版权声明:由产业智能官(公众号ID:AI-CPS)推荐的文章,除非确实无法确认,我们都会注明作者和来源。部分文章推送时未能与原作者取得联系。若涉及版权问题,烦请原作者联系我们,与您共同协商解决。联系、投稿邮箱:erp_vip@hotmail.com