百度Apollo 3.5是如何设计Cyber RT计算框架的?

2019 年 2 月 2 日 AI100

自百度Apollo自动驾驶平台开源以来,已快速迭代至 3.5 版本,代码行数超过 39 万行,合作伙伴超过 130 家,吸引了来自 97 个国家的超 15000 名开发者。无疑,Apollo 是目前世界范围内最活跃的自动驾驶开放平台之一。



最新发布的 Apollo 3.5 总体架构从上到下仍分为四层,最底层为车辆平台,自动驾驶汽车需要对车辆进行线控改造,使得车载大脑可以通过电信号来控制车辆的执行器;往上一层是硬件平台,包括计算单元、传感器以及 V2X 相关接收设备等。再上一层是软件平台,主要包括操作系统、中间件、算法模块等。最顶层的是云端服务,主要包括地图、OTA 服务升级、数据平台、语音交互等方面。


此次发布的Apollo 3.5,解锁了Apollo 在复杂城市道路中的自动驾驶能力,并开源了 Cyber RT 计算框架、V2X 车路协同方案以及硬件平台的一些能力。


随着自动驾驶技术不断发展,Apollo 已经从研发走向量产产品落地。作为 Apollo 开源软件平台的一部分,Apollo Cyber RT 处于底层的实时操作系统(RTOS) 和算法模块之间,那么如何能够在保证高吞吐的情况下,又能低延迟的实时响应上层任务,并保证整个系统确定性的运转,1 月 24 日,在 CSDN 平台上举办的 Apollo 开发者社区公开课上,百度主任架构师王柏生就 Cyber RT 的设计思考,总体架构以及关键模块相关细节同开发者做了分享。


从 ROS 系统说起

Apollo 最初用的中间件是 ROS(机器人操作系统),概括来说,ROS 系统主要包含三方面:


第一是通信系统,ROS 是个分布式的松耦合系统,算法模块是以独立的进程形式存在的,也就是我们常说的 Node。ROS 基于 Socket 实现了pub/sub 的通信方式,不同的算法节点(node)之间通过 pub/sub 的发送/接收消息。


第二是 Framework&Tools (框架和工具),开发者可以基于 ROS 提供的 Client Library 和通信层,方便的收发消息。开发者只需要关注消息处理相关的算法,而至于算法何时被调用,全部由框架来处理。


第三是生态系统,从社区内,开发者可以很方便地寻找到很多现成的「传感器驱动」和「算法实现」等进行参考。



随着自动驾驶的发展,不少开发者,包括 Apollo 平台,把 ROS 应用于自动驾驶系统,毕竟自动驾驶汽车也相当于一个大的机器人。但是我们在实践中也遇到了很多挑战:


  • 首先,ROS 中的算法模块是以独立的进程形式存在的,那么这些进程之间应该以什么样的顺序去执行?实际上,Linux 本身是一个通用系统,内核中的调度器对上面的算法业务逻辑并不清楚,它只是在尽量满足公平的情况下让大家都得到调度。所以,ROS Node 运行顺序并无任何逻辑。


    但本质上自动驾驶是一个专用系统,任务应该按照一定的业务逻辑执行。那么是在 ROS 层加一个 Node,由其来同步各个算法任务的运行,还是在Linux 内核中实现新的调度策略,使其结合算法业务逻辑进行调度?前者的开销,后者的迁移性,都是需要思考的问题。


  • 其次,ROS 是一个分布式的系统。既然是分布式,就要有通信的开销。即使在同一个物理节点上,依然存在着通信的开销。所以 Apollo 前期曾经使用共享内存去降低 ROS 原生的基于 Socket 通信的开销。ROS 2 也在使用 DDS 解决通信方面的实时性。ROS 也支持 Nodelet 模式,这可以去掉进程间通信的开销,但是调度的挑战依然存在。


  • 第三,除了调度的不确定性,ROS 系统中还存在其他很多不确定的地方,比如内存的动态申请。


Cyber RT 的运行流程

算法模块通过有向无环图(DAG),配置任务间的逻辑关系。对于每个算法,也有其优先级、运行时间、使用资源等方面的配置。系统启动时,结合DAG、调度配置等,创建相应的 任务,从框架内部来讲,就是协程,调度器把任务放到各个 Processor 的队列中。然后,由 Sensor 输入的数据,驱动整个系统运转。


Cyber RT 架构

 

基本上,Cyber RT 包括如下软件模块: 


最下面一层是基础库,为了高效,Cyber RT 实现了自己的基础库。比如我们实现了 Lock-Free 的对象池,实现了 Lock-Free 的队列,随着成熟,会陆续开放更多。除了框架自身外,将来也会逐渐应用于算法模块。除了效率原因为,也希望 Cyber RT 减少依赖。


再往上是通信相关的,包括服务发现,还有 Publish-Subscribe 通信机制。 Cyber RT 也支持跨进程、跨机通信,上层业务逻辑无需关心,通信层会根据算法模块的部署,自动选择相应通信机制。 


通信层之上是 数据缓存/融合层,多路传感器之间数据需要融合,而且算法可能需要缓存一定的数据。比如典型的仿真应用,不同算法模块之间需要有一个数据桥梁,数据层起到了这个模块间通信的桥梁的作用。


再往上是计算模型,计算模型包括刚才前面提到的调度和任务,后面我们会详细讨论。


计算模型之上是为开发者提供的接口。Cyber RT为开发者提供了Component 类,开发者的算法业务模块只需要继承该类,实现其中的 Proc 接口即可。该接口类似于 ROS 中的 Callback,消息通过参数的方式传递,用户只要在Proc中实现算法、消息处理相关的逻辑。Cyber RT 也基于协程,为开发者提供了并行计算相关的接口。


Cyber RT 也为开发者提供了开发调试、录制回放等工具,未来还会开放性能调试工具。


从内核空间到用户空间

 

ROS 的主要挑战之一是没有调度,为了解决 ROS 遇到的问题,Cyber RT 的核心设计将调度、任务从内核空间搬到了用户空间。调度可以和算法业务逻辑紧密结合。


从 Cyber RT 角度,OS 的 Native thread 相当于物理 CPU。


在 OS 中,是内核中的调度器负责调度任务(进程、线程…)到物理 CPU 上运行。而在 Cyber RT 中,Cyber RT 中的调度器调度协程(Coroutine)在 Native Thread 上有序运行。


编排调度策略

 


任务编排策略是 Cyber RT 开源的主要策略之一。每个 Processor (Native Thread) 一个任务队列,由调度器编排队列中的任务。任务在哪个 CPU 上运行?任务之间是否需要相邻运行?哪些先运行?哪些后运行?都由调度器统一调度,任务基于协程实现。在任务阻塞时,快速让出 CPU。


每个物理 CPU 上除运行1个 normal 级别的 thread 外,运行着另外 1+ 个高优先级的 thread,基于此,实现用户空间的高优先级的任务抢占运行。比如,之前去 GPU 运行的算法,在 GPU 上完成运行返回后,应该尽快的得到运行。


这种调度策略,很好的结合了业务逻辑、数据共享和算力的平衡。并且任务不会在不同 CPU 上随机的调度来调度去,具有非常好的 Cache 友好性。


经典调度策略

 


任务编排策略,不仅需要对业务逻辑的深度理解,也需要结合计算机的算力等综合考虑。因此,Cyber RT 也提供了类似经典线程池模式的调度算法,这种模式几乎不存在配置的代价。对此,Cyber RT 也做了一些改进,比如为了减小锁的瓶颈,任务是多队列的。任务队列也支持优先级,后续还会支持分组,通过组控制算法对资源的使用。


算法任务的载体—协程

 


Cyber RT 使用了协程作为算法任务的载体。协程之于线程,就类似于线程之于物理 CPU,由 Cyber RT 中的调度器负责在各个线程之上周而复始,切换调度协程。为了算法模块在其他协处理器执行计算时,可以让出Processor(Native Thread),并在完成之后,回来时可以再次运行,Cyber RT采用了有状态的协程。


那么 Cyber RT 为什么采用协程呢?除了协程的切换非常快之外,调度的确定性是另外一个重要的原因。举个典型的例子,假设用 native thread 去执行一个任务,当任务因为去 GPU 等加速器运算时,或者因为资源原因被Block 时,在 thread 就绪时,什么时候调度上来其实是一个非确定的过程,完全依赖于操作系统以及其上任务的情况。


Cyber RT也支持跨进程、跨机通信



实际部署中,也存在着比如某个工具需要运行在独立的进程,安全系统部署在另外的节点。因此,Cyber RT 也支持跨进程、跨机通信。上层业务逻辑无需关心,通信层会根据算法模块的部署,自动选择相应通信机制。 

 

以上就是本次直播分享的内容。非常感谢大家的参加!也欢迎大家提出问题,进行交流。更多 Apollo 相关的技术干货也可以继续关注 Apollo 开发者社区每月的课程分享,也可以在 Apollo GitHub(https://github.com/ApolloAuto/apollo)上提出技术问题与我们互动,期待大家的沟通交流!

登录查看更多
8

相关内容

FPGA加速系统开发工具设计:综述与实践
专知会员服务
65+阅读 · 2020年6月24日
模型优化基础,Sayak Paul,67页ppt
专知会员服务
75+阅读 · 2020年6月8日
华为发布《自动驾驶网络解决方案白皮书》
专知会员服务
125+阅读 · 2020年5月22日
【Google】利用AUTOML实现加速感知神经网络设计
专知会员服务
29+阅读 · 2020年3月5日
TensorFlow Lite指南实战《TensorFlow Lite A primer》,附48页PPT
专知会员服务
69+阅读 · 2020年1月17日
阿里巴巴达摩院发布「2020十大科技趋势」
专知会员服务
106+阅读 · 2020年1月2日
浅谈 Kubernetes 在生产环境中的架构
DevOps时代
11+阅读 · 2019年5月8日
车路协同构建“通信+计算”新体系
智能交通技术
11+阅读 · 2019年3月26日
阿里云发布机器学习平台PAI v3.0
雷锋网
12+阅读 · 2019年3月22日
Arxiv
35+阅读 · 2019年11月7日
Arxiv
8+阅读 · 2018年5月17日
VIP会员
Top
微信扫码咨询专知VIP会员