大咖热议：L3事故责任如何划分？端到端学习靠谱吗？

大咖热议：L3事故责任如何划分？端到端学习靠谱吗？ | 厚势

2017 年 11 月 7 日 厚势清新汽车

厚势按：在技术进步、政策利好等多重驱动下，产业化进程是自动驾驶发展的关键，硬件、软件、数据哪个才是快速推进产业化的密码？值得深入探讨。2017 年 10 月 27 日，由清华大学苏州研究院指导，清新汽车、清研车联联合主办的「自动驾驶快速产业化的密码」主题沙龙在苏州举办。

在圆桌讨论环节，由清华大学苏州汽车研究院智能汽车技术研究所所长戴一凡主持，深度对话了同济大学汽车学院朱西产教授，合众汽车公司副总经理、合众汽车研究院院长彭庆丰先生，清研资本合伙人、华研投资总经理卢居霄先生，清华大学无人汽车研发专家江昆博士。

从左至右依次为：戴一凡博士、朱西产教授、彭庆丰先生、卢居霄先生、江昆博士

合众汽车虽是个新兴的新能源汽车造车的整车企业，彭庆丰透露，按照目前的建设进度，今年 11 月底、12 月份厂房和设备调试结束，明年一季度预计第一款产品上市。而且他介绍了他们在智能网联新能源汽车方面的一些规划，他表示，从建这个公司的第一天起他们就定义为要做智能网联新能源汽车的先行者，把智能网联看的比较重，在技术的规划和投入方面都比较多。他们的规划分两步，第一步是在 L4 级的，这是他们中期的目标，短期的目标是从 L2 级开始，分两步走。

针对戴一凡博士「如果是 L3 级，如果完全是人操作当然由人负责，完全机器操作的时候由机器负责，但是如果在交互的这个过渡过程中，比如像奥迪说有 10 秒钟的时间，这个时间段这个责任划分，这方面有没有一些新的研究？」的问题，朱西产表示：

「从法律上说，L3 发生事故应该是由车厂来负责。但是因为是驾驶员不能分心，从这个角度来说，也许汽车厂、制造商试图利用这一条来免责。就目前而言，这个问题是回答不了，因为到时候会互相推卸责任，车厂说我规定了你必须要专心致志驾驶。

如果它没有发出交接，这当然是车厂的事儿。特斯拉如果敢说它是 L3 它就死定了，因为它根本就没探测到那个东西。但是如果它发出了交接，但是驾驶员未能够完成交接，这时候就有扯皮了。

厂家会说，我发出指令，你应该交接，用户说我交接不了，我想接的，我接过来还是撞了。汽车厂会说我经过实验，5 秒钟一定能够顺利交接；用户说我笨，我就接不过来，我不仅 5 秒接不过来，我可能 8 秒都接不过来，谁的责任？」

另外针对「假如没有激光雷达，有没有可能实现 L3？」的问题，朱西产教授个人看法是没有激光雷达好像没戏，因为毫米波雷达也见识过了，单目摄像头也见识过了，好像是不太行。不过，江昆博士认为：

「还是有可能的。我之前跟一些外企合作的时候，有些企业它很有特色，他说我拒绝使用激光雷达，你给我我也不要。可能也是他们团队分工的问题，但是我看了一下他们的结果，单纯从视觉角度来讲，基于视觉的这种三维建模，基于视觉的三维检测都是在进步的。

跟激光雷达相比最大的缺点还是距离、范围上可能达不到激光雷达 100 多米、200 米的范围，可能二三十米的范围内做一个三维建模还是能够做得到的。所以，它实现一定范围的三维建模不一定需要激光雷达。」

以下为发言实录：

戴一凡：圆桌讨论给我指定了这几个题目，我就自由发挥了，第一个问题因为刚才彭院长没有机会跟大家交流，因为合众汽车也是一个新兴的汽车品牌，拿到了新能源汽车的资质。合众汽车在智能化这块的规划、想法跟大家介绍一下。

彭庆丰：谢谢主持人，谢谢主办方。我就简单介绍一下，我是来自浙江合众新能源汽车有限公司，负责研发。合众汽车是个新兴的新能源汽车造车的整车企业，我们在浙江嘉兴，一期产能规划是单班 5 万辆，一期占地 450 亩，投资大概 24 亿左右。按照目前的建设进度，今年 11 月底、12 月份厂房和设备调试结束，明年一季度预计第一款产品上市。

再简单的介绍一下我们在智能网联新能源汽车方面的一些规划，我们从建这个公司的第一天我们就定义为要做智能网联新能源汽车的先行者，把智能网联看的比较重，在技术的规划和投入方面都比较多。我们的规划分两步，第一步是在 L4 级的，这是我们中期的目标，短期的目标我们是从 L2 级开始。L4 是我们在花大力气做研发，做技术储备的一个阶段，同时在这个地方我们希望近期在 L2 级上面我们能实现产业化，所以这两个路线我们并没有过分的去强调一定是先上 L4 还是先做 L2 的，因为我觉得方向肯定是没有错。

从企业经营的角度，从企业技术储备的角度，我觉得是要做两个阶段的事情。所以在这个上面，在我们技术的合作伙伴的布局上，在我们零部件供应商的合作布局上，以及我们自身的核心技术研发和人才的布局上，我们做了一些特殊的安排，我们希望广泛的跟我们这个行业里面的优势资源，好的合作伙伴来共同推进每一个阶段性的目标，这是我们的想法，谢谢。

戴一凡：合众汽车的中期目标是 L4，远期目标还没说，发展的进度非常快。下一个问题来问问朱教授，刚才您也谈到人机交互这块，现在大家也在说，如果是 L3 级，如果完全是人操作当然由人负责，完全机器操作的时候由机器负责，但是如果在交互的这个过渡过程中，比如像奥迪说有 10 秒钟的时间，这个时间段这个责任划分，这方面有没有一些新的研究？

朱西产：L3 大家说两个难题，因为到 L3 以后，虽然驾驶员也在，但是人机控制权的分配是由车辆决定的。车如果决定自己开，那它就要搞定一切。当然它搞不定的时候它要求人接管是可以的，但是车辆至少能识别到危险，并且要求驾驶员接管，这是一个难题。我们说现在这个车上的环境感知系统，具备不具备识别所有危险的可能性，这是第一个难点，从这个难点来看，仅靠毫米波雷达、单目摄像头是不够的，所以大家寄希望于激光雷达，激光雷达现在的表现已经相当不错了，所以我们看到特斯拉的事故大部分都是环境感知出了问题。加了激光雷达的那些谷歌车的事故，基本上都不是感知的问题，它是感知到了，所以第一个难题，也许激光雷达和 V2X 能够解决。

第二个难题就是刚才戴博士说的，就是快速接管。L3 为什么有些公司说我跳过去，它的意思就是说：我车辆能够自动驾驶，但是驾驶员还不能去做别的事情，还要关注驾驶，这个事情太难了。就像说这个猫不太好，它经常会偷食，你还非要给这个会偷食的猫跟前放一条咸鱼，然后还得说这个猫就不能偷吃这条鱼，这不难上加难吗？我们现在的车没有自动驾驶能力，我还要看手机呢，这个车有自动驾驶能力了还不让我看手机，这个根本做不到。所以我们说不仅 L3，到 L2，分心一定会加剧。难题就在于，如果我们做这个测试，这个驾驶员是专心致志的驾驶的，我相信十秒钟肯定能够完成交接。但是我们还要做另外一个测试，就是在他分心驾驶的情况下，十秒钟以内到底这个驾驶员能不能回到驾驶状态，并且安全的接管和驾控车辆。

去年我们做了一个人机交互方面的，同济大学因为还有其他相关学院，人机交互不是我的研究方向，但是人机共驾一定涉及到人机交互，没有人机交互是完不成两个驾驶员共同来驾驶这辆车的工作的，所以跟他们那个团队我们合作，我们负责驾驶的理解，以及驾驶行为等这样一些跟我们汽车相关的东西，他们负责人机交互、界面如何设计，人的行为特征等认知方面的一些内容。去年我们两个团队合作做了什么事情呢，我们刚才也说，其实高速公路自动驾驶是非常有用的，大部分时间没问题。有一种情况是蛮麻烦的，前方道路维修，你怎么办？我们看到特斯拉在遇到修路的情况，把那些修路的围栏撞了。沃尔沃的 S60 也有、S90 也有，S90 号称是汽车上做 L2 驾驶做的最好的车，上海也有这样的，道路维修，它根本不认识，然后就撞了。L2 这一级我们说活该，驾驶员干什么去了？但是同样的情况如果发生在 L3 呢？那这个事情就是车厂的事儿了，所以我们去年做了这样一个工作。我们首先看看从自然驾驶里面，看看人开车遇到维修路段是怎么处理的，我们分析了几个案例，大体总结参数是这样的：我们以 TTC 来算，这个人看到第一个柱桩，维修的时候会用它围出来，你撞击第一个锥桩的时距来衡量的话大概是 10 秒到 13 秒左右，这个驾驶员就有反应了，因为从车速的信号里面可以看到开始减速了，所以人意识到前面有道路维修，首先减速。大概到负 5 秒左右的时候，因为驾驶员有摄像头拍的，看到他向右侧看，他在观察右侧的道路，是不是能够变道，大概负 3.7 秒左右，他确定右侧道路可以变道，变过去，大概用了 3 秒钟左右的时间，完成了一个完整的变换车道，顺利的通过维修路段，这是驾驶员的情况。

根据这样的情况，我们想对于自动驾驶车来说，我们用车载的这些雷达、摄像机，设定十秒显然是没戏的。你去算一下，100 公里每小时，1 秒钟就 28 米，如果这个雷达能够探 150 米的话才多少？才 5 秒，能探 200 米的话，大概 7 秒，如果要他探测 10 秒后的情况，要 300 米，我们现在有没有探测 300 米的雷达？所以现在我们靠车载传感器想探测 300 米到 400 米范围内的东西就很难，我们寄希望于 V2X 也不够，这个交接我们根本不敢设定 10 秒，我们设定了 4 秒、6 秒、8 秒，我们想知道这个驾驶员能不能回到驾驶状态。设定了两种分心状态，使用微信，在中国肯定使用微信是最普遍的，设定了两种，一种是阅读文字方式，一种是听语音方式。实验结果蛮有意思的，使用文字交流的到 8 秒钟，6 个实验人员都存在无法顺利交接的情形。可喜的是用语音来交互的话，到 6 秒钟就基本上全部顺利的安全完成了交接。所以这块我们说很多研究的东西是要全面考虑的。

也就是说以后在 L3 级实现的时候，我们除了要探测更远的传感器，维修的路段我们强制规定要有一个信标车，不光是要放一个锥桶，你还要放一个信标车把这些信号发出来。我们强制规定 L3 的车一定要装 DSRC 这个交接。如果有 300 米，这个事情倒蛮简单的，如果靠雷达摄像机的话，我们现在看到支撑到 6 秒钟，因为 4 秒钟还是有驾驶员，即便是用语音交互，也有驾驶员没能够回到驾驶状态，把那个锥桶撞了。所以从这个研究来看，可喜的是语音交互方式还真的不错，因为在实验台上做实验，可以测量语音交互所占的人的脑子的负荷，比文字交流要小。文字交流把眼睛拿走了，视线被夺取了，语音交互不夺取你的眼睛，不夺取视线，所以这一串连起来的话，如果加以合理的研究，L3 我觉得还是有可能的。传感器方面用激光雷达，用 LTE-V 的 V2X，在车内的情形，如果需要交互的话，尽量用语音。我们智能手机用的这种方式，文字、图片、触摸，这些在车里面其实都不是好的交互体验，这些结合起来，综合研究以后 L3 还是有可能的。

当然驾车的时候，我在另外一个场合也讲过，如果我是汽车厂，可能我不愿意定义 L3，我认为 L3 应该一个数学里面的渐近线，我努力去实现，但是我们说交通中什么奇怪的事儿都会发生，我希望做的一个车是什么呢？用户认为我是 L3，从法律上认为我是 L2，这样的话我告诉用户我这车可以营销了。但是一旦出了事情，在政府那边我还是规则的。我哪怕做 2.9，我哪怕做 2.99，我也不承认我是 L3。

戴一凡：我再稍微追问一句，因为我刚才那个问题朱老师没有完全正面回答，如果这个时候我探测到了前方，我驶出了我规定的区域，或者有其他的异常，我给一个规定的时间，车开始要向驾驶员移交，假设这个规定时间是 5 秒或者 10 秒，第一个小问题，在移交的过程中从车发出移交的请求，到规定的时间之前，这段时间内，驾驶员接管之前，如果出现了一些事故，您倾向于算谁的？第二个，如果到了规定时间之后，驾驶员还没有去接管，那应该算谁的？

朱西产：从法律上说，L3 发生事故应该是由车厂来负责的。但是因为是驾驶员不能分心，从这个角度来说，也许汽车厂、制造商试图利用这一条来免责。就目前而言，你这个问题是回答不了的，因为到时候会互相推卸责任，车厂说我规定了你必须要专心致志驾驶。如果它没有发出交接，这当然是车厂的事儿。特斯拉如果敢说它是 L3 它就死定了，因为它根本就没探测到那个东西。但是如果它发出了交接，但是驾驶员未能够完成交接，这时候就有的扯皮了。厂家会说我发出指令，你应该交接，用户说我交接不了，我想接的，我接过来还是撞了。汽车厂会说我经过实验，5 秒钟一定能够顺利交接，用户说我笨，我就接不过来，我不仅 5 秒接不过来，我可能 8 秒都接不过来，谁的责任？

刚才我举了个例子，为什么我没有正面回答你，因为你的问题没法回答。我举的例子，如果我用语音交互的方式，6 个人都能够交接，他说你 6 秒钟都是你 6 个同济的学生，我又考不上同济。难道我们必须要考上清华、同济才能开这个 L3 吗？我就笨，你怎么办？另外这种方式，实在没办法的时候也许借助一个标准。提前 5 秒钟发出交接任务的算汽车厂没问题。但问题是哪个政府部门敢制订这个标准？发生了事故的那个人一看有标准了，他会不会把制订标准的这个部门给告了呢？你说制订标准说 5 秒钟内一定能接管，你的依据是什么？你置大众的安全于不顾，我估计政府部门也不愿意制订这个标准。

戴一凡：谈下技术问题，先问江博士，刚才看到您的介绍里面有用深度学习做端到端的，端到端这个算法大家可能看着是个很悬乎的事情，你丢给它一堆图片或者一堆激光雷达扫描的点，输出的直接就是转角、车速这种逻辑了，这个中间其实感觉这个系统就自动算出来了。一个是你们现在做到什么程度？第二个，你觉得这个方法以后在车上真正的应用有没有一个估计？

江昆：这个问题是很多企业、很多机构都在争论的问题，因为深度学习，包括基于端到端的这种方式，它在某些场景下，或者在某些应用下会发现它比基于规则的效率更高，但它只是说我的准确率更高，而不是说我这种情况下我肯定可以，我肯定能作出正确的判断。这样的话产生一个难以取舍的情况，基于规则的话，对于某种定义好的情况，我的逻辑是正确的，我可以无数次重复实验都能保证我作出决策是正确的。但是如果是在用端到端的情况下，它很有可能两张图片有细微的区别，但是算法会觉得它有非常大的区别，就会产生莫名其妙的一种结果。这样的话就会导致概率上 99% 的情况下端到端比你的普通方法好。问题是万一是那 1% 呢？

所以现在比较推崇的方法就是二者结合。在基于规则的这种方法，基于逻辑也好，它能够提供已知条件下的边界条件，在这种边界的条件下，确保我们安全的情况之下，我们再去考虑用什么方法能够得出一个更加准确或者说更加符合人特性的一种决策。

我们现在做的程度是这样的，端到端的学习我们也发现英伟达做了一个端到端的演示视频，我们把他们的算法拿过来研究一下看能不能达到相同的效果。我们做了一个对比，用他们原来已有的代码，用我们的数据来进行训练的话发现效果非常差，基本上正确率只有 50%，比我乱猜稍微高一点点，基本上是用不了的，可能他们有更好的算法没有公开吧。

当时我们展示的效果是因为我们做了一些改进，首先端到端的定义每个人有不同的理解，从狭义的角度来讲，端到端是说我定义的一定是图象，但是端到端的定义应该是说我没有用规则，我是通过数据的形式，不管我的输入是什么，基于数据、基于学习的方法都可以叫端到端。

这里面我们对图片进行了预处理，不是原始图片，原始图片的话，监控仪拍到的图片路边有草、有树、有建筑物，这种路边信息其实是无效信息，或者说是干扰信息，可能每张图片我都得判断，这些树、这些建筑物到底是不是车，是不是我需要考虑的因素，干扰因素太多了，可能我需要大量的数据才能判断出哪些东西是无效的。

为了解决这个问题，我们用了一个方法，先把有效信息给提取出来，比如说我们做决策的时候，真正影响你决策的东西是道路线，开车的时候我肯定是沿着线的，还有前车大概在哪儿。有点类似于基于规则，我正前方 100 米，正常 30 米有车我就要刹车、超车，这是基于规则的。但是如果你考虑更复杂的情况，比如说前面有 3 辆车，处于三个不同的位置，如果是用规则的话，可能建模就比较复杂了。但是我经过深度学习的方法，可能就不需要专业的建模的知识，直接把数据丢进去就行。所以现在就是我先在图片预处理得到前车在哪儿，我的图片在哪儿，我的车道线在哪儿，车在哪儿，基于这些数据输入的时候我再进行学习，大大提高了我的学习效率，我处理的数据直接就是最有用的信息，这样的话对我们算法的复杂度的要求就会降低很多。

当时我们用到的数据量非常小，只有几千张图，但是效果也不错。主要的原因就是对原始图片进行了预处理，提取出来有效的信息，然后在它的基础之上再做深度学习，再做人工智能的算法。

未来我感觉深度学习肯定是一种大的趋势，因为硬件平台上能力会越来越高，支撑的深度学习的算法会越来越复杂，系统会越来越好。第二个深度学习最大的问题就是通过学习知识的储备量是可以增加的，通过比较好的数据集，我要进行训练的话我需要大量的数据，但是数据多少足够呢？有另外一种比较火的方法可以来解决，模拟数据，仿真的平台，也可以进行数据的补充。这样的话整个深度学习它的性能，是可以不断的提升的，未来也许在某个节点就会产生某个科学家所预言的强人工智能，如果能够出现的话还是能够达到我们稳定性的要求，能够达到智能价值的需求。

成波：刚刚你说到基于规则和学习这种混合型的解决方案，现在你到决策实际上就进入了强人工智能领域了，有一个问题就是说先验的知识怎么用到它这个学习过程中，现在没问题，你的规则实际上就是先验的知识，先验知识有两种，一个是约定成俗的，大家都知道这种。还有一种是你前面学习的东西积累下的，也可以作为一种规则或者作为一种边界，你是怎么加到你的学习中去的？

江昆：我们想了一种方法，从框架上就定义好，就体现出了先验知识。学习的时候我就进行分类，我不是所有的知识一块儿学，我是针对超车、换道这种情况是一个数据集，转弯的时候做一个数据集，刹车的时候做一数据集，整个学习过程中本身就体现了分类的思想，只不过具体到我换道该怎么执行，具体到这一个动作的时候，是基于数据的。主要是情景太多太复杂，如果都混在一起的话，目前我们也没有想到太好的方法一起学习。

成波：挺难的，因为它学习出来这些经验很难给它文字化，规则化，很难融入你先验已经约定的知识体系里去，所以你说分块以后能把它积累下来，这个问题应该可以解决。

戴一凡：再给卢总一个问题，刚才提到布局了很多激光雷达这块的一些产业，从你在投资圈里看到这么多公司，你觉得现在激光雷达它离真正的大规模产业化还有哪些问题，大概有多长时间？

卢居霄：刚才讲了几个激光雷达的产品路线，我觉得最能够接近 100 多米、200 米的激光雷达，而且还能满足对射的误报的产品，我还没看到。有一个技术路线我们认可，但是还在验证，连续调试波长的激光雷达。

戴一凡：结论就是你们近期真正能符合自动驾驶需求的还有大规模产业化的还比较远。

卢居霄：其实投资的点就那么几个，为什么举激光雷达这个例子，因为有些公司的科技泡沫太大了。

成波：2020 年有没有产品会出来？因为大家设的时间点都在那儿要 L3。

卢居霄：我觉得有可能的就是光通讯的方式。它是那种用连续广播去扫描，它是纳米红外的激光光源，大概在这个波段，当它发射出去的时候，它穿透力很强，发射的时候它备份一份光源，这个光源有它独特的频谱，收回来的时候只能收自己的频谱，这个长度就是一个简单的时间测量法。

江昆：这种已经开发出来了吗？

卢居霄：已经有了，我们在国外有一个团队，国内也有一个团队。

江昆：目前我了解一些激光雷达，你刚才说光通讯扫描的传感器之前没有了解。

卢居霄：它的接收端会比较贵一点。

朱西产：反过来说就是没有激光雷达，有没有可能实现 L3？我个人看法没有激光雷达好像没戏，因为毫米波雷达我们也见识过了，单目摄像头也见识过了，好像是不太行。但是反过来说如果我们不用激光雷达，有没有可能实现 L3 的途径？

江昆：我个人觉得还是有可能的。我之前跟一些外企合作的时候，有些企业它很有特色，他说我拒绝使用激光雷达，你给我我也不要。可能也是他们团队分工的问题，但是我看了一下他们的结果，单纯从视觉角度来讲，基于视觉的这种三维建模，基于视觉的三维检测都是在进步的，跟激光雷达相比最大的缺点还是距离、范围上可能达不到激光雷达 100 多米、200 米的范围，可能二三十米的范围内做一个三维建模还是能够做得到的。所以它实现一定范围的三维建模不一定需要激光雷达。

朱西产：视线到 20 米还是没问题的。

江昆：本身视觉就可以解决一部分问题了，毫米波雷达也是在演化、在进步。更高带宽的毫米波雷达，它可能都能解决一定的问题。在往后是我个人的偏好，我觉得虚拟传感器是可以发挥更多功能的。V2X 以及高精度地图，当然车载有是最保险的方式，但是在某些限定区域，我就是有它的高精度地图，实际上我的理解，地图是一种动态的数据，我只要能够找到合适的方法把它解决出来，它就是一种实时的传感器，它是可以解决很多感知的麻烦的。所以我觉得不适用激光雷达的情况下，也是能够实现一些高级功能的。

卢居霄：刚才朱老师说那个事儿，其实我觉得毫米波雷达是您说的分辨率不够。

朱西产：五米以内的它就认为是同一个目标物了。

卢居霄：因为我之前去调研的时候，他用的双目，实际上是识别景深，我说如果你识别了景深，你识别了三维轮廓，你还需要深度学习干吗？他说如果说我能知道这个物体是什么，通过深度学习我就知道，一个是感知智能，还有一个决策智能，还有一个预测智能，我通过深度学习我可能知道你下一步要干吗，如果你是个石头你可能就待在那儿不动，如果你是个人的话可能就会动。

彭庆丰：我们企业更多的是在做集成层面，对传感器部分，我说实在的我了解不是太多，所以这块我没有发言权。

戴一凡：由于时间关系，我们今天的讨论就到这里，谢谢大家。

-END-

厚势往期推送精选