毫末智行的 HPilot,不到一年时间就站上了国内智能驾驶第一。
自动驾驶前进的速度,比我们想象得要快一些:今年,全场景辅助驾驶就会在国内落地了。
4 月 19 日,毫末智行在 AI DAY 活动正式推出「城市智慧领航辅助驾驶系统」NOH,并预计将于年中量产落地。
![]()
「2021 年,毫末智行提出中国自动驾驶的新范式,也就是毫末智行的致胜公式:以领先的数据智能体系,乘以稳定的量产能力乘以安全,之后再乘上生态的 N 次方。毫末智行的致胜公式源于毫末对自动驾驶行业的深刻理解,是毫末智行自动驾驶技术产业化落地的重要举措,」毫末智行董事长张凯在活动中说道。
随着技术的发展,高级别智能驾驶正处在大规模量产的前夜。为毫末所有智能驾驶产品提供技术动力支撑的自研数据智能体系 MANA 正发挥出巨大优势。
智能驾驶领域里,毫末智行已经进入领先者队列,这家公司刚刚公布了最新辅助驾驶总里程记录:已突破 700 万公里,用户使用总时长超过 13 万小时。
在毫末产品规模量产的进展上,去年 3 月,毫末智行在品牌开放日活动中展示了 HPilot 1.0 系统,5 月实现量产落地。截止今年 4 月,HPilot 已登陆魏牌摩卡、坦克 300 城市版、魏牌玛奇朵 DHT、魏牌拿铁 DHT、哈弗神兽、坦克 500 六款车型,成为国内应用量最多的自动驾驶系统。
「最近一年,自动驾驶的基础技术发生了很多变化,车载芯片算力不断提升,Transformer 跨模态模型获得应用,摄像头清晰度增加。在感知技术进化的前提下,辅助驾驶实现的方法也在发生改变,」毫末智行 CEO 顾维灏说道。
在城市辅助驾驶任务上,MANA 从感知到认知层面的能力都有了大幅度升级。
MANA 进化:学会看红绿灯,多模态 Transformer
从高速路到城市辅助驾驶,路况的复杂程度成倍增长,让汽车学会如何看红绿灯并识别对应的车道线就是重要的挑战之一。
从 AI 技术的角度看,这就是一个小目标检测问题:交通灯的状态会动态变化,又具有明显地方特色,横着的、竖着的、三个的、五个的、有待转的、有倒计时的,形色各异。智能驾驶系统必须区分每个灯具体指示哪条线路。
![]()
毫末给出的解决方法是通过图像合成和迁移学习加快技术的迭代,其中主要的挑战是实现真实数据和合成数据的混合训练。通过图像合成技术,毫末的工程师扩大了机器学习的样本量,弥补了真实场景数据样本不均衡的问题。
在不完全依赖高精地图的情况下,若想成功实现红绿灯识别,需要完成灯型和状态的检测,同时也要完成在视野中多组红绿灯中识别目标灯组的绑路操作。毫末智行设计了一个针对红绿灯检测及绑路的「双流」感知模型,将红绿灯检测和绑路问题分解成两个通道。
![]()
据毫末介绍,这种技术类似于人脑的视觉感知通道,其中 ventral stream 主要携带物体检测及识别信息,主要负责识别通路(what),dorsal stream 主要携带视野中位置及空间关系的信息,主要负责寻找路线(where)。
在双流模型中,ventral 通路主要负责红绿灯的识别信息,包含对红绿灯灯箱的检测和灯型的分类,分别输出红绿灯的颜色、形状和朝向信息。Dorsal 通路主要负责红绿灯绑路,输出目标车道的红绿灯灯组,其通过训练生成特征图,获得真实图像中经常出现红绿灯位置的位置概率。
随后,模型利用空间注意力机制将二者结合起来,双流模型将输出绑路后的目标车道红绿灯通行状态。
![]()
训练完成后,毫末智行对这些模型进行了大量测试,在不同城市、不同距离、不同转向目标、不同光线的条件下均实现了准确的效果。
Transformer 架构是当前人工智能领域最热门的技术。过去一年里,视觉 Transformer(ViT)已经成为视觉识别的强大支柱。由于性能强大,其在自动驾驶的各独立传感器中都获得了应用。
人们发现,Transformer 结构可为自动驾驶带来几种优势:更高效地利用模型体量和数据,通过注意力结构融合多模态数据,减少对于标注数据的依赖。
![]()
在多传感器融合的尝试中,交叉注意力机制(Cross Attention)被用来作为多模态数据的融合工具,大量减少了人工先验的介入,可以让基于优化的端到端算法和数据驱动更方便的结合,进一步发挥 Transformer 架构的潜力。
![]()
毫末智行根据智能驾驶任务的特点提出了自己的 BEV Transfomer,利用注意力机制解决了多相机视角拼接问题,在车道线识别任务上取得了进步。
具体来说,新系统在得到摄像头数据后,首先对 2D 图像用 Resnet + FPN 进行处理,之后进行 BEV Mapping,利用 Cross Attention 来动态的确定某一帧图像中的内容在相机所属 BEV 空间中的位置。通过多个 Cross Attention,最终组成一个完整的 BEV 空间。
当视觉特征完成 BEV 投射之后,就天然具备了和 LiDAR 模型的融合能力。最后,算法又通过 History BEV 加入与时间有关的特征,进一步提升识别的准确率和连续性。
![]()
在自动驾驶中应用 Transformer 可谓最前沿的尝试,获得的回报也非常可观。特斯拉 AI 总监 Andrej Karpathy 曾介绍了特斯拉 FSD 基于 Transformer 的 BEV 网络结构,由于 BEV 空间下的感知结果与决策规划所在的坐标系是统一的,因此感知与后续模块通过 BEV 变换可以紧密联系到一起。此外,BEV 方法可以有效融合多传感器的输出,让近处大目标尺寸估计和追踪都变得更加准确。该方法的使用确立了 FSD 在视觉感知的领先地位。
那毫末 BEV Transfomer 的实现效果如何呢?毫末表示新的方法对自车姿态的容忍度更高,在复杂路面纵向误差表现更好,对于路面起伏的鲁棒性更高。另外,利用多相机输出内容相互辅助,扩充了检测视野,自动驾驶对周围事物的响应也更快。
目前在业内,只有毫末智行和特斯拉在自动驾驶视觉上大规模应用了 Transformer 架构。此类感知算法在稳定成熟后,将逐步替换基于 CNN 的感知算法。
城市自动驾驶面临的复杂问题往往超过感知层面。在更高层次的认知问题上,毫末智行也有一些新成果。比如非常微妙的路口博弈场景的左转待转时,辅助驾驶车辆需要等待前方掉头车,还需观察避让对向直行车辆、与对向右转车交互。
处理这样的场景,过去自动驾驶算法需要写非常多的规则式场景判定和参数,代码难以调试。当规则越来越多的时候,就会引发逻辑爆炸,导致规则失效。毫末则使用机器学习模型来替换手写规则和参数,获得更广泛的适用性。
毫末提出的 TarsGo 模型目前可以处理很多复杂的辅助驾驶场景,如环岛、辅路汇入、压速变道等等。
![]()
去年,阿里提出了 10 万亿参数超大规模中文预训练模型 M6,成为国内首个实现商业化落地的多模态大模型。毫末智行和阿里达摩院进行了合作,使用 M6 对自动驾驶数据进行图像可解释性标注,获得了前所未有的效果。
通过注意力机制,AI 模型可以用热力图方式量化出与周围交通参与者的安全风险,近距离用红色表示,输出 Attention High,而中距离用黄色表示,输出 Attention Middle。
![]()
M6 在自动驾驶领域的应用体现了 AI 能力的普惠化 —— 以往被其他行业使用的数据,现在也可以迭代提升自动驾驶能力了。
毫末智行还与阿里合作,基于 128 卡 A100 集群,实现了 Swin Transformer 模型分布式训练,探索了混合精度训练、算子和编译的优化,使大模型训练成本降低了 60%,加速比超过 96%。
![]()
在机器学习任务中,数据处理经常占用大部分时间。毫末智行还通过标注过程自动化,将数据标注的效率自动化率提升到了 80%,大幅减少了自动驾驶算法训练的成本。
通过与大算力平台深度融合,自动驾驶认知能力得到了飞速提升,这些技术进步终于让城市智能驾驶成为了可能。
国内首个量产城市辅助驾驶系统 HPILOT 3.0,今年上线
目前,国内高速公路里程约 16 万公里,城市道路里程则早已突破 1000 万公里,在其范围内还有 40 万个城市路口和 130 万个红绿灯。根据毫末的数据,在城市场景下的通勤,有 85% 是拥堵和半拥堵情况。拥堵变道、借道绕障、路口博弈、非机动车出现是城市辅助驾驶必须面临的问题。
毫末目前已完成了城市 NOH 的全部功能开发,其数据智能体系 MANA 的学习时长达 197273 小时,虚拟驾龄相当于人类司机 2 万年。
毫末即将推出的下一代城市智能驾驶系统 HPilot 3.0 将配备 AI 算力 360T,高速缓存 144M,CPU 计算能力达到 200K+DMIPS 的新一代自动驾驶芯片。全车搭载 2 个激光雷达、12 个摄像头,5 个毫米波雷达形成的多冗余感知体系。
![]()
城市 NOH 能够根据导航路线在城市环境中应对各种复杂交通场景,实现城市区域内点到点安全、轻松的智慧出行。根据目前的测试,该系统实现了 70% 路口通过率,变道成功率 90%。
仅用一年多时间,毫末智行就帮助长城完成了智能驾驶能力的升级,率先站在了下一阶段城市智能驾驶的起跑线上。在国内除毫末智行外,目前仅有小鹏明确表示将在今年上线城市辅助驾驶能力。
毫末为今年制定的目标是 NOH 系统覆盖超过 30 款新车。在未来两年,搭载毫末辅助驾驶系统的乘用车数量将超过 100 万台。按照这一目标,毫末将在未来持续保持中国量产自动驾驶第一名的位置。
![]()
「随着自动驾驶、辅助驾驶的成熟,这些新技术不仅能够有效保障交通参与者的生命安全,还能够逐步释放驾驶者的驾驶时间,缓解驾驶疲劳,获得出行效用的提升,」顾维灏表示。
在大规模量产后,毫末智行智能驾驶的核心——MANA数据智能,势必将会随数据和技术的积累,在业内树立标杆。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com