自动驾驶现已成为人工智能技术应用落地的热门领域,但随着无人车迈出的步伐越大,面临的安全性方面的挑战也越大。而近期不断发生的自动驾驶车辆事故也将自动驾驶安全性的问题再次推向风口浪尖。自动驾驶车辆的安全性问题成为当前社会各界,包括研究领域最关心的课题之一。其中,作为自动驾驶车辆的眼睛——传感器就很重要了。
如今,车载传感器的种类五花八门,无论是摄像头、雷达、还是利用光脉冲测距的光达(Lidar)组件,均是各有所长。其中,以车载摄像头与激光雷达为代表的传感器“一哥之争”最为引人注目。
一个是传感器“新晋小生”激光雷达,时刻发扬着高效、精准的探测精神;另一个是入行多年、以成本低廉、技术成熟著称的“老大哥”摄像头,谁将为未来自动驾驶的核心传感器代言?
通过为期一个月的观点PK活动【激光雷达与摄像头,未来哪种会成为自动驾驶的核心传感器】,我们收集了两种阵营的不同观点看法,究竟是用摄像头还是激光雷达?大家一起来看看。
观点 1 效果不错,但太贵怎么办?
“从仿生学角度来看,人类只依靠眼睛和耳朵就能够准确判断交通中出现的各种问题。在实际商业化过程中,激光雷达虽然效果不错,但过于昂贵,不适合落地。”
这是摄像头阵营中发出的第一种声音:太贵,用不起!
据了解,目前美国Velodyne64线激光雷达在10万美金左右,即使是16线雷达的售价也在8000美金左右。
试想一下,如果换成最新出炉的128线激光雷达,也够商用车厂“捏一把冷汗”的。相比之下摄像头的成本就低了不止一点点,足够让自动驾驶研发领域“心动许久”。
观点 2 没有用到极致,就是浪费,太不光荣!
“都知道摄像头便宜,如果再加上毫米波雷达、超声波雷达等,完全可以将效果提升到很好的状态。现在很多厂商太过于看重激光雷达的“潮流性”,而并没有好好想办法将廉价的传感器性能发挥到极致,这就是一种跟风形势下的浪费!”
其实业界关于将摄像头技术发挥到极致的探索,一直在持续。
很长一段时间里,关于自动驾驶的路况判断,多数以单目摄像头的方案为主,但在测距范围与距离上,就会不可避免出现一个难以平衡的问题。
因为摄像头的技术原理类似于人类的眼睛,视觉越宽,探测到的精准距离的长度越短;当距离变长时,视角就相应地变窄了,很大程度上为路况判断带来障碍。
如何解决?业内很快出现了双目甚至多目摄像头。
双目摄像头所涉及的双目视觉测距原理,不同于单目,要先将目标障碍物与数据库样本建立起对应关系、然后才能进行距离估算。
其采用的是基于视差的三角测距原理,仅通过计算左右“两眼”获取的两幅图像对应点间的位置偏差,就可以实时还原视觉场景中每一点的真实三维几何信息,有点类似于3D 电影的感觉。
除了双目摄像头,更为先进的多目摄像头可以通过不同角度的摄像头来捕捉不同范围的场景,同时解决无法来回切换焦距以及不同距离情况下提升识别清晰度的问题。
但基于现实来看,尽管多目摄像头解决了一些问题,但同时也带来了例如成本和安装位置等新难题,当然我们相信,摄像头的技术改进会持续不断。
观点 3 确定“狂用”激光雷达,不是噱头+炒作吗?
“未来,自动驾驶系统的处理速度和分辨率都不应该成为问题。摄像头的价格便宜且图像内容丰富,而激光雷达获得的是稀疏图像。”
在自动驾驶的辅助驾驶系统中,视觉影像处理系统最基础,对于驾驶者的呈现也更直观,而摄像头在视觉影像处理系统中又是“基础中的基础”,因此车载摄像头对于自动驾驶必不可少。
此外,计算机视觉在自动驾驶车辆上的使用确实出现了一些比较直观的例子。例如交通标志和信号灯的识别、高速公路车道的检测定位。如今基于Lidar信息实现的部分功能,也可以用基于计算机视觉技术的摄像头来实现。
计算机视觉系统在自动驾驶场景中主要解决的问题可以归结为:物体的识别与跟踪以及车辆本身的定位等。通过深度学习的技术,摄像头可以识别在行驶途中遇到的物体,例如行人、地上的标志、红绿灯以及旁边的车辆等。
业界普遍相信随着技术的发展,更多基于摄像头的算法会让自动驾驶的感知能力越发稳、准、快。
观点 1 摄像头技术瓶颈较多,能好用?
“通过解析图像数据来获取行驶状态的方式还是太被动,而且速度慢,抗干扰性也差。如果摄像范围内飞过一只鸟都要解析一下,遇上雨雪冰雹的话,难保车载计算机不会死机。”
观点 2 激光雷达还是利大于弊,很快会走上“物美价廉”的道路!
“激光雷达所具有的高精度、高可靠性以及三维特性使其将作为并有可能一直作为自动驾驶技术核心传感器发挥作用。”
三维激光雷达的点云数据可以精确描绘周围环境及目标的三维轮廓及方位深度信息,对于目标检测、识别、跟踪的实现至关重要。
虽然基于双目视觉技术,摄像头确实可以实现深度信息的获取,但其精确度、环境耐性还是会带来应用的局限性。
目前,Velodyne的64线激光雷达确实要60-70万人民币,但随着自动驾驶技术的普及,激光雷达技术的成熟,生产厂商的增加,产量的提升以及低线数和固态激光雷达的发展,廉价的激光雷达在不远的将来一定会出现。
观点 3 实践出真知,激光雷达确实好用的没话说!
“因为切身实践过,对远距离摄像头的局限性深有感触。”
目前, 激光雷达的激光扫描方法不仅可以作为军事用途,而且获取的数据成果也被广泛应用于城市规划、农业开发、环境监测及国家重点建设项目等方面,经济效益显著,应用前景比较好。
如果盘点目前所有的传感器技术,激光雷达依旧最热门!
此外还有一个重要原因,激光雷达在自动驾驶中确实表现了相当多的用途。事实证明,高度自动化的车辆如果需要一个具有定位功能的基本地图,关于此没有任何一项技术能够取代激光雷达,这就是高端产品得以竞争的地方。
以Velodyne 的16线激光雷达为例。视觉测距点云非常稠密,可以达到每秒钟输出2700万点云,而16线激光雷达的点云只有30万点云,点密度会高出90倍;但在测量范围呈现的误差上,立体视觉与激光雷达相比,远距离方面会落后很多。
具体来说,双目视觉在近处的误差较小,可以达到厘米级别,而在远端的误差会较大,会在几米的级别甚至达到十米的误差,这与成像精度、成像条件以及测量目标等相关。
而激光雷达从近到远都能保持很好的测距精度。从视场角分析,视觉系统不可避免地受到一些光学成像的限制,视场角不如360°旋转的机械激光雷达。
过去,激光雷达的高价一直被人们“吐槽”,而供货商也通过各种技术升级开发多种光束控制技术,不断改善光达的耐用性、尺寸以及成本,其中固态光达就是探索成果之一。
固态激光雷达,就是不使用机械式激光雷达中的机械旋转部件,采用电子方案来达到全范围的探测,将体积缩小。
另外一种,混合固态激光雷达,是介于固态激光雷达和机械式激光雷达两者中间。从外观上,混合固态激光雷达几乎看不到传统的旋转部件,但其实内部的机械旋转部件做的十分小巧并藏于机身内部。
技术上来讲,目前固态激光雷达和混合固态激光雷达尚处于起步阶段,不过很重要的一点,业界正在寻求激光雷达成本与功能的平衡。
其实无论是摄像头阵营还是激光雷达的梯队,都有一种共同的声音,就是综合利用,互补发展。
现在都打“组合拳”,离了谁都不行!
“以目前的行业发展情况来看,摄像头+激光雷达的解决方案是必然的。”
激光雷达的优点是能精确、迅速地捕捉行驶过程中与障碍物的距离、相对速度等关键信息,但仅靠这些信息还是无法实现真正意义上的“自动驾驶”。
自动驾驶想要真正占领市场,必然要与城市、高速公路交通系统对接,进而通过人工智能实现常规问题的技术化。如何识别道路的红绿灯、道路标识,分析行人的动向?对于自动驾驶系统,单纯感知到障碍的存在是没意义的,必须具备预测障碍运动轨迹的能力,而摄像头确实能够采集丰富得多的数据,对算法提供的有效信息也要比雷达多得多。
其实,随着自动驾驶车辆收集的传感器数据越来越多,当下最重要的还是传感器融合的质量。毕竟,自动驾驶无法使用单独一种传感器来完成驾驶任务以及安全保障,很大程度上传感器融合的结果决定了决策与行为的安全性。
当然,如果必须同步所有的传感器信号,这种融合方式还是比较困难的。相比于对象数据,原始数据在转换过程中不会发生丢失,所以大数人支持这种数据融合的方式。但是不容忽视的一点,如果做到原始数据的融合,就必须要大批量的处理能力以及GB级网络,才能准确无误将信号传送到整车中。
相辅相成,相互渗透才是正道!
“目前看,高端的激光雷达为主,计算机视觉(也就是摄像头)为辅比较合适。”
同样,在激光雷达的支持阵营中,也有声音明确表示,无论是激光雷达还是摄像头,都应该“相辅相成”才是最佳!
现在,大多数团队青睐的32线或64线激光雷达在探测道路障碍的能力上非常可靠,只要在探测范围内,它们几乎不可能出错。不过,一旦距离稍远,它们就很有可能分不清障碍物到底是什么,例如将皮卡错看成普通汽车,将三位行人看成两位,此外也可能无法识别面部表情和肢体语言。最重要的是,这家伙是“色盲”,它看不出红绿灯信号。
如果有了计算机视觉的辅助,情况就不一样了。激光雷达可以将障碍物的图片从背景中“抠”出来,随后计算机视觉很容易就能分清它到底是什么,而且无需100%可靠,只负责提高最终效果就行。
如果自动驾驶汽车只需遵从“不要撞到路上的东西”这样简单的命令,激光雷达就完全够用,但这样的设定下自动驾驶汽车会频繁刹车,影响乘坐舒适度。随着激光雷达的精度越来越高,环境建模会更加细致,而且一般来说激光视场角大,稳定性更高,可靠性更好,不过一些场景的识别还是需要摄像头,所以更多开发者赞同以激光雷达为主、摄像头为辅的自动驾驶感知系统。
其实不单单是激光雷达、摄像头这两种传感器,自动驾驶一定会走上各种车载传感器融合的道路。
从L1到L5所涉及的不同阶段的辅助驾驶以及自动驾驶的发展过程中,对传感器的种类和数量的需求会呈现不断增长的趋势。
越复杂的驾驶环境和自动驾驶功能对环境的感知需求也会越来越高,所以高敏感度的传感器融合是自动驾驶企业应该特别“留心”的事儿。
比如,在“定位”的场景下,GPS通常会以较低的更新频率提供相对准确的位置信息,而IMU则以较高的更新频率提供不太具有准确性的位置信息。在这个过程中,我们通常可以使用卡尔曼滤波来整合两种类型的数据,它们各自呈现的优势,合并后提供准确且实时的位置信息更新。
GPS/IMU定位(图片来源于CSDN资讯)
例如,IMU每5ms更新一次,但期间误差不断累积导致了精度不断降低。但同时每100ms可以得到一次的GPS数据更新,可以有效帮助校正IMU积累的误差。
但这样的搭配带来的数据组合并不足以完成精确的定位工作。主要由于这样的定位精度仅在一米之内,涉及范围太狭窄;GPS信号所带有的天然多路径问题将引入噪声干扰;如果在开放的环境中,GPS也不适用,例如隧道等。
因此作为补充方案,摄像头也加入了“定位”的行列。
简单来说,基于视觉的定位,首先需要通过对立体图像的三角剖分,得到视差图来计算每个点的深度信息。
然后可以通过匹配连续立体图像帧之间的显著特征,通过相关性估计两帧之间的运动情况。
立体视觉测距问题(图片来源于CSDN资讯)
最后通过比较显著特征和已知地图上的定位点来计算车辆的当前位置。
但这种以视觉为基础的定位方法比较敏感,适用性并不乐观,在此基础上,借助大量粒子滤波的激光雷达就登场了!
由激光雷达产生的点云对环境进行了“形状化描述”,尽管精准度还做不到极致,但是通过粒子滤波,系统可以做到将已知地图与观测到的具体形状进行比较,然后降低位置的不确定性。
车辆在运动状态下,又该怎么办?这种情况,可以使用粒子滤波的方法来关联已知地图和激光雷达测量过程。
据了解,粒子滤波可以在10厘米的精度内达到实时定位的效果,这个指标在城市道路的复杂环境中比较有效。
但不容忽视的一点,激光雷达在一些特殊的气候条件下也存在问题。例如,空气中有悬浮的颗粒,通常的雨滴或者灰尘就会对测量结果产生很大的波动!
这样梳理下来,一个简单的“精准定位”操作妥妥需要传感器相互融合,各自发挥自带的优点!
定位中的传感器融合(图片来自CSDN资讯)
百度作为自动驾驶领域的“先行者”,始终坚持传感器融合的态度。关于激光雷达以及摄像头,Apollo在感知方案对以上两种方案均有考虑。从1.5开始,加入64线激光雷达,主要用于3D障碍物的感知。到2.0加入毫米波雷达,增强了远距离的能力,而且增加了与激光雷达的融合感知。另外还新增了不同焦距的两个摄像头,主要用于红绿灯的识别。最后在2.0版本中对于这两种传感器的使用,是一种相互结合的情况。目前使用的参考硬件有:
车载计算单元 ─ Neousys Nuvo-6108GC
CAN 卡 ─ ESD CAN-PCIe/402-B4
GPS与惯导(IMU) ─ 支持两种选型:
NovAtel SPAN-IGM-A1
NovAtel SPAN® ProPak6™ and NovAtel IMU-IGM-A1
Light Detection and Ranging System (LiDAR)激光雷达 ─ Velodyne HDL-64E S3
摄像头 — Leopard Imaging LI-USB30-AR023ZWDR with USB 3.0 case
毫米波雷达 — Continental大陆 ARS408-21
Apollo各传感器、计算单元和控制器的接线与数据流通原理图:
备注:黑色线:基于协议格式的数据流;红色线:电源的连接线
具体的安装过程参照:《Apollo 2.0 Hardware and System Installation Guide》【点击阅读原文可查看详细安装过程】
总体上说,传感器与配套的算法及芯片相辅相成,未来更希望提供一套完整的解决方案,而不是单个硬件。另外不同类型的传感器的功能各有优势,融合使用并通过量产及新技术推动才有望达到成本的下降。