在一项新的研究中,麻省理工学院的研究人员展示了一种机器学习方法,该方法可以学习控制一支自主驾驶车队,当它们接近并通过一个有信号灯的十字路口时,能够保持交通顺畅。
没有人喜欢在红灯前等待。但是,有信号灯的十字路口对司机来说不仅仅是个小麻烦;车辆在等待信号灯变化的时候会消耗燃料并排放温室气体。
如果驾驶者可以安排好他们的行程,使他们在绿灯时到达十字路口呢?虽然这可能只是人类司机的幸运,但它可以由使用人工智能来控制其速度的自动驾驶车辆更稳定地实现。
在一项新的研究中,麻省理工学院的研究人员展示了一种机器学习方法,该方法可以学习控制一队自主车辆,当它们接近并通过一个有信号灯的十字路口时,能够保持交通顺畅。
通过模拟,他们发现他们的方法可以减少燃料消耗和排放,同时提高平均车速。如果道路上的所有汽车都是自主的,该技术会得到最好的结果,但即使只有25%的汽车使用他们的控制算法,它仍然会带来大量的燃料和排放效益。
"这是非常有趣的,可以进行干预。没有人的生活会因为他们被堵在一个十字路口而变得更好。在很多其他气候变化干预措施中,有一个预期的生活质量差异,所以那里有一个进入的障碍。论文作者Cathy Wu说,她是土木与环境工程系Gilbert W. Winslow职业发展助理教授,也是数据、系统和社会研究所(IDSS)和信息与决策系统实验室(LIDS)的成员。
该研究的主要作者是Vindula Jayawardana,她是LIDS和电气工程与计算机科学系的研究生。该研究将在欧洲控制会议上发表。
虽然人类可能会不假思索地驶过绿灯,但十字路口可能会出现数十亿种不同的情况,这取决于车道的数量、信号灯的运作方式、车辆的数量和速度、行人和自行车的存在等等。
解决交叉口控制问题的典型方法是使用数学模型来解决一个简单、理想的交叉口。这在纸面上看起来不错,但在现实世界中很可能站不住脚,因为那里的交通模式往往是混乱的。
Wu和Jayawardana换了个角度,用一种被称为深度强化学习的无模型技术来处理这个问题。强化学习是一种试错的方法,控制算法学习做出一系列的决定。当它找到一个好的序列时,它就会得到奖励。通过深度强化学习,算法利用神经网络学到的假设,找到通往良好序列的捷径,即使有数十亿种可能性。
这对于解决像这样的长线问题很有帮助;控制算法必须在一个较长的时间段内向车辆发出500条以上的加速指令,Wu解释说。
"她补充说:"而且我们必须在我们知道我们已经很好地缓解了排放并以良好的速度到达十字路口之前,得到正确的顺序。
但还有一个额外的问题。研究人员希望系统能够学习一种策略,以减少燃料消耗并限制对旅行时间的影响。这些目标可能是相互冲突的。
"为了减少旅行时间,我们希望汽车开得快,但为了减少排放,我们希望汽车慢下来或根本不动。这些相互竞争的奖励可能会让学习代理人感到非常困惑,"Wu说。
虽然解决这个问题的普遍性很有挑战性,但研究人员采用了一种被称为奖励塑造的技术来进行变通。通过奖励塑造,他们给系统一些它自己无法学习的领域知识。在这种情况下,每当车辆完全停止时,他们就对系统进行惩罚,这样它就会学会避免这种行为。
一旦他们开发出一种有效的控制算法,他们就使用一个具有单一交叉口的交通模拟平台对其进行评估。该控制算法被应用于一个联网的自主车辆组成的车队,这些车辆可以与即将到来的交通信号灯进行通信,以接收信号灯的相位和时间信息,并观察其周围环境。该控制算法告诉每辆车如何加速和减速。
当车辆接近十字路口时,他们的系统并没有造成任何走走停停的交通(当汽车因前方交通停止而被迫完全停止时,就会出现走走停停的交通状况)。在模拟中,更多的汽车在单一绿灯阶段通过,这超过了模拟人类司机的模型。当与其他同样旨在避免走走停停的交通的优化方法相比,他们的技术带来了减少了更大的燃料消耗和排放。如果道路上的每辆车都是自主的,他们的控制系统可以减少18%的燃料消耗和25%的二氧化碳排放,同时将行驶速度提高20%。
"一次干预有20%至25%的燃料或排放减少,真的令人难以置信。但我觉得有趣的是,也是我真正希望看到的,是这种非线性的比例。如果我们只控制25%的车辆,这给我们带来50%的燃料和排放减少的好处。她说:"这意味着我们不必等到我们达到100%的自动驾驶车辆才能从这种方法中获益。
接下来,研究人员希望研究多个交叉口之间的互动效应。他们还计划探索不同的交叉口设置(车道数量、信号灯、计时等)如何影响旅行时间、排放和燃料消耗。此外,他们还打算研究当自动驾驶车辆和人类司机共享道路时,他们的控制系统会如何影响安全。例如,即使自动驾驶车辆的驾驶方式可能与人类司机不同,但速度较慢的道路和速度较稳定的道路可以提高安全性,Wu说。
虽然这项工作仍处于早期阶段,但吴认为这种方法在近期内可以更可行地实施。
"这项工作的目的是在可持续交通方面取得进展。我们也想做梦,但这些系统是惯性的大怪物。确定干预点,对系统进行微小的改变,但有重大的影响,是让我早上起床的事情”,她说。
"Cathy Wu教授最近的工作显示了生态驾驶如何为减少燃料消耗提供一个统一的框架,从而最大限度地减少二氧化碳排放,同时在平均旅行时间上也有很好的效果。更具体地说,Wu的工作中所追求的强化学习方法,通过利用互联自动驾驶汽车技术,为同一领域的其他研究人员提供了一个可行的、有吸引力的框架,"卡内基梅隆大学电气和计算机工程系教授Ozan Tonguz说,他没有参与这项研究。"总的来说,这是在这个新兴的重要研究领域的一个非常及时的贡献。"
这项工作得到了麻省理工学院-IBM Watson人工智能实验室的部分支持。
主干道上的信号交叉口导致车辆持续空转和过度加速,造成燃油消耗和二氧化碳排放。因此,已经有一系列的工作在研究生态驾驶控制策略,以减少交叉口的燃料消耗和排放水平。然而,在各种交通环境中设计有效的控制策略的方法仍然难以实现。在本文中,我们提出了一种强化学习(RL)方法来学习有效的生态驾驶控制策略。我们分析了所学策略对燃料消耗、二氧化碳排放和旅行时间的潜在影响,并与自然驾驶和基于模型的基线进行比较。我们进一步证明了在混合交通情况下所学策略的普遍性。仿真结果表明,在联网自动驾驶汽车(CAV)100%渗透的情况下,燃料消耗量可减少18%,二氧化碳排放水平可减少25%,同时行驶速度甚至提高20%。此外,结果表明,即使是25%的CAV渗透率也能带来至少50%的总燃料和排放减少效益。