毫末智行，首推自动驾驶「ChatGPT」

2023 年 4 月 12 日 机器之心

机器智行原创

作者：于雷

AI大 ‍模型 DriveGPT 重塑汽车智能化技术路线。

2 月 17 日，毫末智行预告了即将发布自动驾驶生成式大模型 DriveGPT。与近几个月大火的 ChatGPT 一样，DriveGPT 同样都所采用了 Transformer 模型，同时也使用了 RLHF（人类反馈强化技术）算法进行强化训练；与 ChatGPT 使用自然语言文本进行训练不同，DriveGPT 使用的是驾驶场景数据进行模型训练，并通过不断引入真实人驾接管数据，让模型自我优化，逐步训练自己不断给出更高质量的答案。

昨天（4 月 11 日），在第八届 HAOMO AI DAY 上，毫末正式对行业首发了 DriveGPT 自动驾驶生成式大模型，同时也公布了其中文名「雪湖・海若」。

毫末智行董事长张凯

毫末智行 CEO 顾维灏表示：「DriveGPT 雪湖・海若的目标是实现端到端自动驾驶，现阶段主要用于解决自动驾驶的认知决策问题，后续持续会将毫末多个大模型的能力整合到 DriveGPT。」

毫末智行CEO顾维灏

同时，毫末还在现场宣布雪湖・海若的首发车型是魏牌新摩卡 DHT-PHEV，后续将落地到魏牌蓝山。这意味着雪湖・海若将在 2023 年智能驾驶产品竞争中，起到关键作用。

「2023 年将是智能驾驶冲刺之年、大考之年。」毫末智行董事长张凯判断，「2023 年智驾产品进入全线爆发期，大模型开启在车端的落地应用，车主的使用频率和满意度成为产品竞争力的重要衡量标准。」

按照毫末的判断，这次 DriveGPT 雪湖・海若大模型的发布，也代表其将加速从软件驱动的 2.0 时代，跨向大模型、大数据、大算力为特点的数据驱动的自动驾驶 3.0 时代。

什么是 DriveGPT？

GPT 的全称是生成式预训练 Transformer 大模型，主要应用在 NLP 领域，本质上是不断求解下一个词（Token）出现的概率。然后再将这个词作为下一个时间步的输入，如此往复进行生成，最终获得一个连贯、通顺的文本。

最近广受关注的 ChatGPT 就属于语言类生成式大模型，主要是模拟人类语言行为，根据输入的文字或图片生成回答，与用户交互。而 DriveGPT 雪湖・海若则是用于自动驾驶场景的生成式大模型，所以毫末智行把 ChatGPT 输入的自然语言文本串，换成智能驾驶感知到的过去场景，输出也就变为了包括自车决策规控、障碍物预测以及决策逻辑链等条件在内的未来场景。

在这之中，一个重点就是如何将智能驾驶场景，变为和自然语言一样的 Token，毫末智行给出的答案是 Drive Language。其基于毫末智行的 CSS 场景库理论，利用 BEV 网格来做整个空间的离散化，将每一个网格定义为一个固定大小的词表，这样输入代表已发生场景的 Token 序列，就可以根据历史生成未来的 Token 序列。

目前，毫末智行 Token 化后的词表空间，已经达到了 50 万量级。最终，一连串的 Token 拼起来就是一个完整的驾驶场景时间序列，包括了未来某个时刻的完整交通环境状态和自车状态。

顾维灏介绍：「DriveGPT 可以按概率生成很多个这样的场景序列，每一个场景序列都是未来有可能发生的一种实际情况，这是它的第一个特性。它的第二个特性是在所有场景序列都产生的情况下，能把场景中我们最关注的自车行为轨迹给量化出来，也就是生成场景的同时，便会产生自车未来的轨迹信息。」

这样一来，在统一的生成式框架下，就可以做到规划、决策与推理等多个任务全部的完成。

根据规划，DriveGPT 雪湖・海若现阶段主要用于解决自动驾驶的认知决策问题，属于原本自动驾驶认知大模型的能力升级，后续视频自监督大模型、3D 重建大模型、多模态互监督大模型、动态环境大模型等模型的能力也将被整合进来。而 DriveGPT 雪湖・海若的最终目标是实现端到端自动驾驶。

DriveGPT 雪湖・海若

用类 ChatGPT 方法搞定「自动驾驶认知」

DriveGPT 雪湖・海若的训练，是根据历史去生成未来所有可能的场景，并根据概率推理出未来一段时间的多个可能。这一过程利用了大概万多的接管数据来进行 RLHF 训练，反馈数据当中就会隐藏了不同场景下错误的自动驾驶开法与正确的人类开法。看到这里，是不是有很熟悉的味道，那就是 DriveGPT 采用了和 ChatGPT 训练同源的算法。

而且，雪湖・海若的初始化模型（Pretrain model）共使用了 4000 万量产车驾驶数据训练，本身能够对各种场景做生成式任务，但这些生成结果还需要按照人类偏好去调优，在安全、高效、舒适等维度上做出取舍。

所以，毫末智行为了对生成决策结果进行调优，利用强化学习的思路做了一个打分系统。简单的说，在同一环境下，系统与驾驶者判断一致（不被接管）的行为会打高分，被接管的打低分，还会与将同场景的系统与人类驾驶行为对比，越接近代表越能被真实驾驶者喜欢。

顾维灏表示：「我们通过一个初始化模型（Pre-Train Model）去生成并收集一些候选数据。然后，通过一个反馈模型给这些数据打分排序，再用强化学习的思路，把反馈模型认为好的结果排上来，差的结果排下去。最后，把参数更新到一个备份模型（Active Model）中，通过强化学习的方式，DriveGPT 生成的效果就会有一个明显地提升。」

在强化学习阶段，毫末智行还在过去搜集到的所有接管数据里人工挑选出大概 5 万段能够覆盖到各种比较复杂场景、真实驾驶偏好的数据，回灌训练反馈模型。有了这个之后，雪湖・海若就能在预训练模型上加入 Prompt 提示语，模型就可以根据其所代表的特征，将含有决策逻辑链（Chain of Thought，CoT）的未来序列重新排序，给出更符合期望的驾驶策略。

「DriveGPT 还能输出决策逻辑链，这里面利用了 Prompt 提示语技术，输入端需要给到模型一个提示，告诉它『要去哪、慢一点还是快一点、并且让它一步步推理』。经过这种提示后，它就会朝着我们期望的方向去生成结果，并且每个结果都带有决策逻辑链。每个结果也会有未来出现的可能性。这样我们就可以选择未来出现可能性最大，最有逻辑的链条驾驶策略。」顾维灏介绍。

毫末 CSS 自动驾驶场景库是 CoT 的重要输入，拥有超过几十万个细颗粒度场景，将 Prompt 提示语和完整决策过程的样本交给模型去学习，学到推理关系，从而将完整驾驶策略拆分为自动驾驶场景的动态识别过程，完成可理解、可解释的推理逻辑链生成。

AI 大模型基础设施

MANA OASIS 雪湖・绿洲再升级

DriveGPT 雪湖・海若的训练和落地，也离不开算力的支持。毫末智行目前已对其智算中心 MANA OASIS 雪湖・绿洲进行了三大升级，使训练过程中的稳定性、效率和速度得到有效提升。

首先是避免训练时出错导致非正常中断，浪费前期投入的大量资源。毫末智行在大模型训练框架的基础上，与火山引擎共同建立了全套训练保障框架，包括 Monitor&Alert、Tracer&Log、Profile&Checkpoint 等功能。通过训练保障框架，可以通过集群调度器实时获取服务器异常、并及时将异常节点从训练 pod group 中删除，再结合 CheckPoint 功能，利用 VePFS 高性能存储和 RDMA 网络高效分发。

「最终我们实现了异常任务分钟级捕获和恢复能力，可以保证千卡任务连续训练数月没有任何非正常中断，有效地保障了 DriveGPT 大模型训练的稳定性。」顾维灏表示。

其次是基于量产自动驾驶规模优势，构建了以真实数据回传为核心的增量式学习推广到大模型训练。结合增量学习数据以动态数据流的形式，持续不断将量产回传和筛选的存量数据，传入感知和认知 Pre-train 大模型。系统定时采样评测模型学习状态，出现异常快速回滚，持续提取最佳模型版本。

顾维灏介绍：「由于每天回传的数据不同的时段数据量差异巨大，这就要求我们训练平台具备弹性调度能力，自适应数据规模大小。我们将增量学习技术推广到了大模型训，构建了一个大模型持续学习系统，研发了任务级弹性伸缩调度器，分钟级调度资源，集群计算资源利用率达到 95%。」

最后在训练效率上，毫末智行还针对 Transformer 大矩阵计算，通过对内外循环的数据拆分，尽量保持数据在 SRAM 中，以提升计算的效率。Transformer 类大模型计算复杂度高，训练难度大。传统训练框架中存在 PyTorch，算子流程很长等问题，毫末智行通过引入火山引擎提供的 Lego 算子库实现算子融合，将端到端吞吐提升 84%。

DriveGPT 雪湖・海若落地

能带来什么？

按照毫末智行的规划，雪湖・海若即将应用到毫末第三代智能驾驶系统 HPilot3.0 上。首先落地的车型是魏牌新摩卡 DHT-PHEV，后续还有魏牌蓝山。

雪湖・海若引入车端之后，其决策会让车辆的动作更丝滑、更人性，且会有合理的逻辑告诉驾驶者，车辆为什么会选择这样的决策动作。对于普通用户来说，对车辆的信任感也会增强，可感受到车辆的行为都是可预期、可理解的。

目前，雪湖・海若已实现了模型架构与参数规模的升级，参数规模达到 1200 亿，预训练阶段引入 4000 万公里量产车驾驶数据，RLHF 阶段引入 5 万段人工精选的困难场景接管 Clips。

不过在未来，雪湖・海若的目标是实现端到端自动驾驶。

在 MANA 五大模型的帮助下，毫末最新的车端感知架构，已从过去分散的多个下游任务集成到一起，形成一个更加端到端的架构。这次，雪湖・海若又将 MANA 感知和认知相关大模型能力统一整合起来，打通了感知和认知。接下来，随着更多大模型的整合，雪湖・海若也将逐步向着端到端自动驾驶的最终目标进发。

顾维灏称：「DriveGPT 运用在车端后，未来可在四大场景上将带来突破，分别是城市 NOH、捷径推荐、智能陪练、场景脱困。最终，我们希望能够抵达自动驾驶的终极场景 —— 无人驾驶。」

随着雪湖・海若的正式发布，毫末迎来了包括北京交通大学计算机与信息技术学院、火山引擎、华为云、高通、京东科技、四维图新、魏牌新能源、英特尔等首批合作伙伴。毫末还将面向首批合作伙伴逐步开放 DriveGPT 的智能驾驶、驾驶场景识别、驾驶行为验证、困难场景脱困四大应用能力。

昨天，毫末已经对行业生态伙伴开放了 DriveGPT 的驾驶场景识别能力，同时毫末还将对行业开放一套基于 4D Clips 数据的高性价比的驾驶场景识别方案，其单帧图片整体标注成本仅相当于行业平均水平的 1/10。

顾维灏介绍：「在行业上，给出正确的标注结果，一张图片需要大概 5 元。如果使用 DriveGPT 的场景识别标注服务，一张图片的价格将下降到 0.5 元。」

自动驾驶数据形态的升级和成本的下降，会为自动驾驶技术跃升带来巨大影响。

AI 大模型下

视觉感知能力持续提升

除了 DriveGPT 雪湖・海若的架构升级和能力升级之外，MANA 视觉感知能力也得到了持续提升。

首先是视觉自监督大模型架构做了扩展，将预测环境的三维结构、速度场和纹理分布融合到同一个训练目标里，训练后的模型就可以理解场景当中的结构、速度和纹理等核心信息。

比如，这样输入前面 K 个时刻的信号，就可以通过 4D 编码器，提取出相关的动静态障碍物，路面、天气、光照等局部和全局的语义信息，形成 4D 特征空间。有了这个由前面 K 个时刻融合的 4D 特征，再输入解码器 3D 空间的位置编码，就能把后面 H 个时刻的三维结构和纹理信息都恢复。

顾维灏表示：「目前，我们的视觉自监督大模型的数据集超过 400 万 Clips，感知性能提升 20%。」

视觉能力提升之后，毫米智行下一点考虑的是能不能拿掉一些不必要的传感器，用更低的成本做更多事情。这里第一个被关注的是近距离测距任务。

「我们将鱼眼相机也引入到视觉 BEV 的感知框架当中，鱼眼图像通过 2D backbone 提取出视觉特征，经过空间转换映射至 BEV 空间，并在该空间下对于障碍物的轮廓边界进行识别和测量。」顾维灏介绍。

目前，毫末智行已经能做到在 15m 范围内达到 30cm 的测量精度，2m 内精度高于 10cm 的视觉精度效果。与主流的 USS 超声波雷达方案相比，其探测距离极限明显更高，近距离探测精度也不相上下，有能力在泊车场景取代 USS，进一步降低智能驾驶硬件成本。

通过视觉自监督大模型技术，做到不依赖激光雷达，将收集的大量量产回传视频转化为可用于 BEV 模型训练、带 3D 标注的真值数据后，毫末智行还在纯视觉 NeRF 三维重建方面取得更多进展。

其中，单趟重建做到了误差小于 10cm，并能对于场景中的车辆等动态物体做到很好的重建和渲染，肉眼基本看不出差异；多趟重建可以提供更多的观测视角，采用多趟轨迹对齐，提供出更好的重建结果，弥补单趟重建的不足。

通过 NeRF 进行场景重建后，就可以直接编辑合成真实环境难以收集到的 Corner Case，减去采集成本。其是在原有的全局视角修改、添加光照 / 天气效果的基础上，新增合成虚拟动态物体的能力，可以在原有设定的运动轨迹上，合成各种 Hard Case，模拟城市复杂交通环境，用更低成本测试提升城市 NOH 能力边界，更好提升应对城市复杂交通环境。

毫末智行是国内最早明确「重感知」路线的自动驾驶公司，这些年也一直在大模型、车端感知能力、智算中心方面做出大量努力。而如今，毫末推出 DriveGPT 雪湖・海若大模型，持续升级视觉感知能力，致力于端到端自动驾驶的路线，这些意味着毫末正在完成数据驱动的关键闭环。