Apollo小度车载系统打造更舒心的出行

会员服务 ·

Apollo小度车载系统打造更舒心的出行

2018 年 4 月 19 日 InfoQ

人工智能正逐渐占据着人们生活的方方面面。刷脸支付、智能音箱、无人驾驶等技术已早成为热门话题。那么它们在跨行业领域（如汽车领域）的应用如何呢？

车载系统的现状

目前市面上很多所谓的智能车载系统，但从用户体验角度来看，仍然有很多问题，譬如：

有的车载系统带有语音交互功能，但却不能语音直接唤醒，需要手动按键开启
无法进行实时语音交互，或系统反应速度较慢。
语音交互功能比较有限，仅支持某些特定语句。
语音识别准确率低，抗噪能力差。
在疲劳驾驶监测上仍以驾驶时间长短、方向盘操作频率等为主。少数车企（丰田等）虽采取了红外传感器监测面部表情的方法，但价钱昂贵，且识别准确率较低。
不能自动识别车主特征，无法提供针对性的服务。

Apollo小度车载系统提供的“智能”

百度于 2017年底演示的 Apollo小度车载系统，是全球首款人车 AI交互系统。它提供了人车对话、人脸识别登录、疲劳监测、智能安全、AR导航、车家互联、服务和内容个性化引擎等核心 AI功能，能够做到“听懂你、看懂你、关爱你、守护你”的贴心陪伴。这些核心能力相互协同，构建了完整的人车 AI交互系统。

“听懂你”：智能语音助手，精准化的语音识别以及情感化交流，智能化的语义解读以及拟人化对答
“看懂你”：人脸识别；疲劳驾驶监测
“关爱你”：AR导航；全新场景化用户界面
“守护你”：人车家互联；智能安全

小度车载系统的应用场景譬如：用户通过刷脸登录后，车辆座椅立即调节至适合的角度。在开车时，通过语音询问天气或时下最热门的电影等，并可成功通过车载系统刷脸支付购买电影票。同时，小度车载系统还可以打通家居和汽车场景，利用 DuerOS场景打通能力、ABC云及通信安全能力，用户在家中即可对智能音箱发出语音指令，远程控制车辆（如完成提前打开车内空调等操作）。

此外，疲劳驾驶监测也是亮点之一。它运用了深度学习、图像识别、语音合成等等技术，对驾驶员的眼睛、嘴部、脸部以及对车态和车外环境的综合判断，作出有效识别，提醒和保护驾驶员更安全的驾驶车辆。

智能车载系统的技术难题

打造好的语音语义系统

从语音层面，我们要能够听清，能够识别出语音。如果没有听清，一切都是空谈。

能够听清需要硬件（如麦克风阵列、降噪芯片等）与软件（语音识别与唤醒）相结合。Apollo小度车载系统是如何实现这些的呢？

首先是从芯片级的降噪算法入手。

回声消除：播放导航或者语音的声音会被录进去，可通过参考信号方式去掉；
稳态噪音：譬如开车时的空调噪音、胎噪、风音等，这些噪音的模型相对稳定，可以通过模型把噪音消掉；
非稳态噪音：譬如开车时副驾驶或后座乘客的各种交谈。这类噪音没有固定的模型拟合，可通过定向识音技术来解决，做到谁唤醒听谁的。

其次从端上着手。

从端到端，只需要输入声学波形和特征，通过神经网络建模处理，识别出想要的结果。除了实际场景数据，百度可以在短时间内录制很多近场语料种子，再叠加很多车载噪音的模型，形成模拟车载语音模型。

从语义层面，我们要很好地理解用户的意图。

在此基础上，通过对话、场景做更人性化、拟人化的对答，满足用户需求。一套成熟的语义系统包含三方面：技术、数据和内容。内容足够广、数据足够多、技术足够深，是 Apollo小度车载系统打造对话系统的必要条件。百度拥有海量数据，使得它有底气打造全球车载语音系统。技术上主要是深度学习和自然语言处理。要想让对话系统拥有导航能力或识别导航的能力，首先要有预知能力，在百度提供的大数据引擎下不断的训练和持续优化，最后产生出传统经典的对话模型，包括意图识别、词槽分辨、知识问答等等。

这其中涉及到的挑战有：

传统的语音语义系统可能考虑很多固定的句式对话，而用户的指令表达会多样化。
多轮交互的对话流管理。能够让用户在对话中做自然意图的切换、词槽的切换。
模棱两可的查询。需要根据用户以往对话和行为记录对用户进行画像，识别用户意图。

疲劳驾驶监测

Apollo小度车载系统运用了深度学习、图像识别、语音合成等等技术，对多项指标进行综合判断。

AI能力的落地

有些 AI技术虽然发展很成熟，但直接放在汽车场景上并不适用。如何让 AI技术落地也是需要考虑的一个重要方面。

关于 Apollo小度车载系统的其他问题

小度车载用定向识音技术来解决非稳态噪音问题，“做到谁唤醒听谁的”。那么，小度的语音唤醒和识别是否只能由主驾驶进行？

A：小度语音唤醒支持整个车上各个座位，大家都可以跟小度去互动的。“谁唤醒听谁的”，比如说主驾驶唤醒，那么这轮交互就会针对主驾驶互动；在这轮交互完了以后，下一次如果是副驾驶唤醒，它就会跟副驾驶进行下次交互。

能否详细介绍语音唤醒？譬如：（1）自定义唤醒词，如是否支持用“你好，小明”来唤醒车机？（2）有些情况是，A唤醒了车机，然后是 B希望去命令控制，如“我要听首歌”，对于这样的场景是否会矛盾呢？还是有某种模式切换支持？此外，在多人唤醒的场景下，如何处理多人的指令呢？是按照顺序逐一处理吗？（3）除了通过音源定位等技术优化噪音对识别体验的影响外，在噪音优化上，小度还做了哪些优化努力？

A：（1）自定义唤醒词我们是支持的。（2）A唤醒车机、B去命令控制不会矛盾，只要大家都在同一个音区里面即可；我们为了兼顾车上各个座位乘客的体验，也推出了四音区的解决方案，一是提高了各个座位的语音体验，二是各个座位之间语音识别和蓝牙通话等可以并行，互不干扰，三是可以进行车内前后排座位的通话。对于多人场景，N选 1或者多个信号源同时处理，小度都支持，具体要看车厂的需求来定。支付上我们已经跟百度钱包做到体验上的闭环，可以直接用人脸支付。（3）我们通过回声消除、模型的训练匹配以及生源定位定向拾音在前端来解决噪音问题，另外在识别引擎上，我们也在不断地迭代抗噪能力。

用户画像需要基于以往的对话记录、驾驶行为记录等等。那么，对第一次登陆系统的用户，当他／她提出模棱两可的查询时，如何进行用户画像？

A：这种情况小度会和用户做更详细的交互。举个例子，用户提到“成都博物馆”，那么系统会澄清说：“您是想知道成都博物馆的百科呢？还是想导航到这里去？”小度会跟用户做多轮交互来进行澄清问题。澄清完了之后，这个用户就开始在我们这里有初步的用户画像，后续就会慢慢完善了。

小度对多轮会话的支持情况如何？

A：目前小度通过用户画像和当前上下文理解等长短期记忆来实现多轮，借助百度强大的 NLP、DM、DST、NLG等能力构建出了业界领先的多轮能力。

新用户往往会跳跃问题，打乱问答交互的上下文环境，小度如何提高此种情况的用户体验呢？

A：跨垂类的多轮交互，我们会通过主动澄清和预测的方式来确认用户的意图。

目前的语音助手是否只支持普通话？是否支持方言，或者非中文（譬如，英文句子，或夹杂着英文单词的句子）？在个性化服务上，将来是否会支持用户自定义一些 “快捷”用语库、进行更个性化的查询？

A：这是两个问题，我先回答第一个。小度现在除了普通话外也是支持方言，包括粤语和四川话，等等。非中文方面，也分两部分来看，一部分就是 Native Speaker，小度平台在美国使用过，效果还是非常好的；而中英文夹杂的这种句子，我们也做了一些重点的优化，比如说有很多 POI是中英文混合，如“我想听 I love you 这首歌”， “我要去 Starbucks”等等，我们的识别率都是非常高的。小度针对中英文混合的 POI或者歌名歌星名专门做过优化，目前的识别率基本跟纯中文持平。个性化查询这块，我们叫做技能，小度自己有些自定义功能，比如说我要回家，可能每个人的家的地址不一样，你只要把地址输入到系统里面，把公司地址输入到系统里面，以后你直接说我要回家或者我要上班就可以自动查询了。

能够提供一些数据来支持所谓的“识别率非常高”，或者做些行业内的竞品对比？

A：我们无论在唤醒率和识别率上都超过了竞品。我们有一些严谨的第三方众测和 OEM们评测的报告，但由于涉及到数据机密，不方便提供相关资料。

云端模型的训练与更新周期多长？

A：这个问题没有办法一概而论，理论上，语音这块的模型每天都在迭代。因为每天从线上会有很多语音查询，语音在整个百度全平台上面每天被调用几十亿次，我们每天都会把这些数据在算法模型里面去训练，模型每天都在迭代，每天都在学习。

人脸识别的安全问题。有一些黑客或技术人员曾做过实验，可以通过照片或 3D打印模型成功进行人脸识别。那么，小度车载系统是否也有类似的安全隐患上的考虑？将会如何解决？这个刷脸登陆是只支持一个人，还是其他人也可以呢？

A：首先，在人脸识别系统里有很严格的活体检测模块，我们也加了很多种束缚策略来防止入侵。除此之外，我们还有账号交叉验证，还有一些产品流程设计上的方案，这些综合来保证识别的安全性。这方面大家不用太担心，因为用 3D打印模型或照片的话是肯定过不了活体检测的。刷脸登陆可以支持多人，需要完成注册即可。

小度车载系统的功能好像会受到网络覆盖信号的影响。在没有网络的地方，是基本就无法使用小度车载了吗？疲劳驾驶监测是否还能正常进行？

A：无论是语音，还是疲劳检测这些系统都是支持离线处理的，我们都有离线的一些引擎，并不完全依赖于网络。有离线的引擎在，没网络的时候它也可以工作。

离线识别情况一般识别率比较低，小度的离线识别情况是什么样呢？小度为解决离线下的识别率及识别场景多样性问题做了哪些权衡与优化？

A：随着汽车联网率的普及以及云上的能力迭代速度加快，在线会越来越普及，但是由于车载场景的特殊性，在无网或者弱网环境下的体验也是小度非常关注的，我们针对车载场景下最核心的不依赖于云端数据返回的场景和需求相关的指令，做深做精，识别率目前已经达到 90%以上。

疲劳驾驶监测是一大亮点，模型需要考虑的因素也很多，目前的进展和准确率如何？有一些场景（如，用户唱歌、做鬼脸等等）的面部动作与打哈欠很类似，监测的误报率高吗？下一步会将重点放在这一块的数据增强、模型训练以及调优上吗？

A：疲劳检测这一块，小度和市面的一些竞品做过对比，现在支持的疲劳动作监测数目大概 12个。比如说闭眼，打哈欠，视线偏移等等，平均的检测准确率大概在 95%左右。这只是一个基准的测试结果，今后会针对车型，包括摄像头的位置，驾驶员适配后的结果进一步的提升。用户唱歌、做鬼脸的情况我们也在模型训练中考虑过，而且专门做过一些针对性的处理。我们通过大量的数据分析后，会发现用户唱歌的场景下嘴巴开闭的特征和打哈欠是完全不同的，我们在模型算法里加入了这种判断就不会发生混淆了。对于驾驶员监控系统，我们下一步主要在做策略模型的优化，包括去优化推演的规则，包括与大数据统计模型相结合，包括针对各个车体摄像头的位置，去做支持模型，同时我们也会支持更多、更细化的脸部动作。

小度目前支持得较好的交互场景有哪些？导航场景交互的突出亮点？

A：小度针对车载主要的交互场景都希望做到体验极致，尤其是导航、音乐等核心场景。

小度使用的是软唤醒方案，是否会考虑支持硬唤醒方案？假如有车厂为唤醒效果提出此类需求，小度是否有解决方案？

A：小度同时支持软唤醒和硬唤醒方案，车厂可以根据具体的需求选择。

小度对个性化语音播报的支持情况是怎样的？能否支持用户自录音播报？

A：小度拥有全球首个情感化 TTS合成系统，能够通过语音合成多个 TTS，提高了交互的体验。