AI老司机，驾龄等于人类2万年：计划两年登上百万台车

会员服务 ·

AI老司机，驾龄等于人类2万年：计划两年登上百万台车

2022 年 4 月 19 日 机器之心

机器之心原创

作者：泽南

毫末智行的 HPilot，不到一年时间就站上了国内智能驾驶第一。

自动驾驶前进的速度，比我们想象得要快一些：今年，全场景辅助驾驶就会在国内落地了。

4 月 19 日，毫末智行在 AI DAY 活动正式推出「城市智慧领航辅助驾驶系统」NOH，并预计将于年中量产落地。

「2021 年，毫末智行提出中国自动驾驶的新范式，也就是毫末智行的致胜公式：以领先的数据智能体系，乘以稳定的量产能力乘以安全，之后再乘上生态的 N 次方。毫末智行的致胜公式源于毫末对自动驾驶行业的深刻理解，是毫末智行自动驾驶技术产业化落地的重要举措，」毫末智行董事长张凯在活动中说道。

随着技术的发展，高级别智能驾驶正处在大规模量产的前夜。为毫末所有智能驾驶产品提供技术动力支撑的自研数据智能体系 MANA 正发挥出巨大优势。

智能驾驶领域里，毫末智行已经进入领先者队列，这家公司刚刚公布了最新辅助驾驶总里程记录：已突破 700 万公里，用户使用总时长超过 13 万小时。

在毫末产品规模量产的进展上，去年 3 月，毫末智行在品牌开放日活动中展示了 HPilot 1.0 系统，5 月实现量产落地。截止今年 4 月，HPilot 已登陆魏牌摩卡、坦克 300 城市版、魏牌玛奇朵 DHT、魏牌拿铁 DHT、哈弗神兽、坦克 500 六款车型，成为国内应用量最多的自动驾驶系统。

「最近一年，自动驾驶的基础技术发生了很多变化，车载芯片算力不断提升，Transformer 跨模态模型获得应用，摄像头清晰度增加。在感知技术进化的前提下，辅助驾驶实现的方法也在发生改变，」毫末智行 CEO 顾维灏说道。

在城市辅助驾驶任务上，MANA 从感知到认知层面的能力都有了大幅度升级。

MANA 进化：学会看红绿灯，多模态 Transformer

从高速路到城市辅助驾驶，路况的复杂程度成倍增长，让汽车学会如何看红绿灯并识别对应的车道线就是重要的挑战之一。

从 AI 技术的角度看，这就是一个小目标检测问题：交通灯的状态会动态变化，又具有明显地方特色，横着的、竖着的、三个的、五个的、有待转的、有倒计时的，形色各异。智能驾驶系统必须区分每个灯具体指示哪条线路。

毫末给出的解决方法是通过图像合成和迁移学习加快技术的迭代，其中主要的挑战是实现真实数据和合成数据的混合训练。通过图像合成技术，毫末的工程师扩大了机器学习的样本量，弥补了真实场景数据样本不均衡的问题。

在不完全依赖高精地图的情况下，若想成功实现红绿灯识别，需要完成灯型和状态的检测，同时也要完成在视野中多组红绿灯中识别目标灯组的绑路操作。毫末智行设计了一个针对红绿灯检测及绑路的「双流」感知模型，将红绿灯检测和绑路问题分解成两个通道。

据毫末介绍，这种技术类似于人脑的视觉感知通道，其中 ventral stream 主要携带物体检测及识别信息，主要负责识别通路（what），dorsal stream 主要携带视野中位置及空间关系的信息，主要负责寻找路线（where）。

在双流模型中，ventral 通路主要负责红绿灯的识别信息，包含对红绿灯灯箱的检测和灯型的分类，分别输出红绿灯的颜色、形状和朝向信息。Dorsal 通路主要负责红绿灯绑路，输出目标车道的红绿灯灯组，其通过训练生成特征图，获得真实图像中经常出现红绿灯位置的位置概率。

随后，模型利用空间注意力机制将二者结合起来，双流模型将输出绑路后的目标车道红绿灯通行状态。

训练完成后，毫末智行对这些模型进行了大量测试，在不同城市、不同距离、不同转向目标、不同光线的条件下均实现了准确的效果。

Transformer 架构是当前人工智能领域最热门的技术。过去一年里，视觉 Transformer（ViT）已经成为视觉识别的强大支柱。由于性能强大，其在自动驾驶的各独立传感器中都获得了应用。

人们发现，Transformer 结构可为自动驾驶带来几种优势：更高效地利用模型体量和数据，通过注意力结构融合多模态数据，减少对于标注数据的依赖。

在多传感器融合的尝试中，交叉注意力机制（Cross Attention）被用来作为多模态数据的融合工具，大量减少了人工先验的介入，可以让基于优化的端到端算法和数据驱动更方便的结合，进一步发挥 Transformer 架构的潜力。

毫末智行根据智能驾驶任务的特点提出了自己的 BEV Transfomer，利用注意力机制解决了多相机视角拼接问题，在车道线识别任务上取得了进步。

具体来说，新系统在得到摄像头数据后，首先对 2D 图像用 Resnet + FPN 进行处理，之后进行 BEV Mapping，利用 Cross Attention 来动态的确定某一帧图像中的内容在相机所属 BEV 空间中的位置。通过多个 Cross Attention，最终组成一个完整的 BEV 空间。

当视觉特征完成 BEV 投射之后，就天然具备了和 LiDAR 模型的融合能力。最后，算法又通过 History BEV 加入与时间有关的特征，进一步提升识别的准确率和连续性。

在自动驾驶中应用 Transformer 可谓最前沿的尝试，获得的回报也非常可观。特斯拉 AI 总监 Andrej Karpathy 曾介绍了特斯拉 FSD 基于 Transformer 的 BEV 网络结构，由于 BEV 空间下的感知结果与决策规划所在的坐标系是统一的，因此感知与后续模块通过 BEV 变换可以紧密联系到一起。此外，BEV 方法可以有效融合多传感器的输出，让近处大目标尺寸估计和追踪都变得更加准确。该方法的使用确立了 FSD 在视觉感知的领先地位。

那毫末 BEV Transfomer 的实现效果如何呢？毫末表示新的方法对自车姿态的容忍度更高，在复杂路面纵向误差表现更好，对于路面起伏的鲁棒性更高。另外，利用多相机输出内容相互辅助，扩充了检测视野，自动驾驶对周围事物的响应也更快。

目前在业内，只有毫末智行和特斯拉在自动驾驶视觉上大规模应用了 Transformer 架构。此类感知算法在稳定成熟后，将逐步替换基于 CNN 的感知算法。

用大模型实现自动驾驶「认知」能力

城市自动驾驶面临的复杂问题往往超过感知层面。在更高层次的认知问题上，毫末智行也有一些新成果。比如非常微妙的路口博弈场景的左转待转时，辅助驾驶车辆需要等待前方掉头车，还需观察避让对向直行车辆、与对向右转车交互。

处理这样的场景，过去自动驾驶算法需要写非常多的规则式场景判定和参数，代码难以调试。当规则越来越多的时候，就会引发逻辑爆炸，导致规则失效。毫末则使用机器学习模型来替换手写规则和参数，获得更广泛的适用性。

毫末提出的 TarsGo 模型目前可以处理很多复杂的辅助驾驶场景，如环岛、辅路汇入、压速变道等等。

去年，阿里提出了 10 万亿参数超大规模中文预训练模型 M6，成为国内首个实现商业化落地的多模态大模型。毫末智行和阿里达摩院进行了合作，使用 M6 对自动驾驶数据进行图像可解释性标注，获得了前所未有的效果。

通过注意力机制，AI 模型可以用热力图方式量化出与周围交通参与者的安全风险，近距离用红色表示，输出 Attention High，而中距离用黄色表示，输出 Attention Middle。

M6 在自动驾驶领域的应用体现了 AI 能力的普惠化 —— 以往被其他行业使用的数据，现在也可以迭代提升自动驾驶能力了。

毫末智行还与阿里合作，基于 128 卡 A100 集群，实现了 Swin Transformer 模型分布式训练，探索了混合精度训练、算子和编译的优化，使大模型训练成本降低了 60%，加速比超过 96%。

在机器学习任务中，数据处理经常占用大部分时间。毫末智行还通过标注过程自动化，将数据标注的效率自动化率提升到了 80%，大幅减少了自动驾驶算法训练的成本。

通过与大算力平台深度融合，自动驾驶认知能力得到了飞速提升，这些技术进步终于让城市智能驾驶成为了可能。

国内首个量产城市辅助驾驶系统 HPILOT 3.0，今年上线

目前，国内高速公路里程约 16 万公里，城市道路里程则早已突破 1000 万公里，在其范围内还有 40 万个城市路口和 130 万个红绿灯。根据毫末的数据，在城市场景下的通勤，有 85% 是拥堵和半拥堵情况。拥堵变道、借道绕障、路口博弈、非机动车出现是城市辅助驾驶必须面临的问题。

毫末目前已完成了城市 NOH 的全部功能开发，其数据智能体系 MANA 的学习时长达 197273 小时，虚拟驾龄相当于人类司机 2 万年。

毫末即将推出的下一代城市智能驾驶系统 HPilot 3.0 将配备 AI 算力 360T，高速缓存 144M，CPU 计算能力达到 200K+DMIPS 的新一代自动驾驶芯片。全车搭载 2 个激光雷达、12 个摄像头，5 个毫米波雷达形成的多冗余感知体系。

城市 NOH 能够根据导航路线在城市环境中应对各种复杂交通场景，实现城市区域内点到点安全、轻松的智慧出行。根据目前的测试，该系统实现了 70% 路口通过率，变道成功率 90%。

仅用一年多时间，毫末智行就帮助长城完成了智能驾驶能力的升级，率先站在了下一阶段城市智能驾驶的起跑线上。在国内除毫末智行外，目前仅有小鹏明确表示将在今年上线城市辅助驾驶能力。

毫末为今年制定的目标是 NOH 系统覆盖超过 30 款新车。在未来两年，搭载毫末辅助驾驶系统的乘用车数量将超过 100 万台。按照这一目标，毫末将在未来持续保持中国量产自动驾驶第一名的位置。

「随着自动驾驶、辅助驾驶的成熟，这些新技术不仅能够有效保障交通参与者的生命安全，还能够逐步释放驾驶者的驾驶时间，缓解驾驶疲劳，获得出行效用的提升，」顾维灏表示。

在大规模量产后，毫末智行智能驾驶的核心——MANA数据智能，势必将会随数据和技术的积累，在业内树立标杆。

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

登录查看更多

相关内容

系统

关注 3

重磅！《2022智慧城市白皮书》发布

专知会员服务

122+阅读 · 2022年5月26日

中国自动驾驶和未来出行服务市场展望

专知会员服务

39+阅读 · 2022年4月18日

【AI+军事】附论文+PPT 《合成环境中的空中实训》

专知会员服务

51+阅读 · 2022年4月17日

中兴通讯《助力能源行业数字化转型 ——数字经济筑路者，使能能源互联网》，36页pdf

专知会员服务

19+阅读 · 2022年4月6日

2021-2022中国自动驾驶产业年度总结报告（附下载），48页pdf

专知会员服务

54+阅读 · 2022年3月10日

2021年数字孪生行业概览：工业大脑，41页ppt

专知会员服务

84+阅读 · 2022年2月15日

阿里达摩院十大科技趋势报告，31页pdf

专知会员服务

68+阅读 · 2021年12月29日

「炼丹师」转正？「人工智能训练师」国家职业技能标准发布：共有五大级别，你是第几级？

专知会员服务

27+阅读 · 2021年11月28日

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

专知会员服务

35+阅读 · 2021年7月8日

迈向巅峰之路——中国成长型AI企业研究报告（附报告全文）

专知会员服务

65+阅读 · 2021年5月29日

2022年，毫末智行的3场战役

AI前线

1+阅读 · 2022年4月29日

城市辅助驾驶成下一个战场，毫末智行硬刚「特蔚小理」｜36氪专访

36氪

0+阅读 · 2022年4月21日

竟是毫末率先量产城市辅助驾驶，北京上路，自动识别红绿灯

量子位

0+阅读 · 2022年4月19日

又一自动驾驶创企拿下大额融资！

AI前线

0+阅读 · 2022年4月12日

嬴彻科技完成L4级重卡无人驾驶路测

量子位

0+阅读 · 2022年3月7日

未来三年覆盖100万辆车，毫末智行360T的算力之下还有一个「雪湖」

机器之心

1+阅读 · 2021年12月24日

2年内落地34款车型，路测里程可绕地球50圈，这家自动驾驶公司正在“玩命求生”

量子位

0+阅读 · 2021年11月30日

今年你的双11包裹，也是自动驾驶卡车送来的吗？

量子位

0+阅读 · 2021年11月12日

带AI无人车上云驾校，不出门练遍各大城市道路，华南理工大学团队拿下“互联网+”大赛金奖

量子位

0+阅读 · 2021年10月20日

中国最懂自动驾驶量产公司秀肌肉：自动驾驶算力怪兽、百亿参数云端超大模型、百万公里路测里程

量子位

0+阅读 · 2021年9月29日

基于人类驾驶知识的无人驾驶车辆智能决策系统研究

国家自然科学基金

8+阅读 · 2013年12月31日

集成空天地多源异构多视遥感数据的特大城市超高层建筑物三维重建研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于行为识别和环境检测的车道变换预警方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

驾驶员危险驾驶行为辨识模式研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于流形和视觉注意的复杂场景夜视目标识别

国家自然科学基金

0+阅读 · 2012年12月31日

高速公路长大隧道群段驾驶员视觉疲劳致因机理与改善建议

国家自然科学基金

0+阅读 · 2012年12月31日

基于驾驶人视觉特性与车辆运动状态的换道意图识别方法

国家自然科学基金

0+阅读 · 2011年12月31日

支持无人驾驶车辆的交通标识图文识别与理解

国家自然科学基金

0+阅读 · 2011年12月31日

车辆主动安全关键技术研究

国家自然科学基金

3+阅读 · 2008年12月31日

仿驾驶员轨迹决策行为的无人驾驶车辆局部路径规划

国家自然科学基金

2+阅读 · 2008年12月31日

Exploring Feature Self-relation for Self-supervised Transformer

Arxiv

0+阅读 · 2022年6月10日

Multi-task Self-distillation for Graph-based Semi-Supervised Learning

Arxiv

0+阅读 · 2022年6月10日

BSM loss: A superior way in modeling aleatory uncertainty of fine_grained classification

Arxiv

0+阅读 · 2022年6月9日

Self-Promoted Supervision for Few-Shot Transformer

Arxiv

0+阅读 · 2022年6月9日

Constrained Imitation Learning for a Flapping Wing Unmanned Aerial Vehicle

Arxiv

0+阅读 · 2022年6月8日

Efficient Transformers: A Survey

Arxiv

23+阅读 · 2020年9月16日

Deep Learning in Video Multi-Object Tracking: A Survey

Arxiv

58+阅读 · 2019年7月31日

Meta-Learning: A Survey

Arxiv

136+阅读 · 2018年10月8日

A Survey of Domain Adaptation for Neural Machine Translation

Arxiv

17+阅读 · 2018年6月1日

VQA-E: Explaining, Elaborating, and Enhancing Your Answers for Visual Questions

Arxiv

17+阅读 · 2018年3月20日

VIP会员