3种方法，教你设计一个语音技能

会员服务 ·

3种方法，教你设计一个语音技能

2021 年 2 月 21 日 人人都是产品经理

关注并将「人人都是产品经理」设为星标

每天早 07 : 45 按时送达

在我们的日常生活中，语音技能其实无处不在。科技的不断发展使我们的生活变得越来越方便，很多时候通过说话便能让机器代替我们去做一些事情，这是语音技能给我们的生活带来的便捷之处。那么，如此便利的语音技能是如何设计出来呢？

全文共 3466 字，阅读需要 7 分钟

—————— BEGIN ——————

2016年，“互联网女皇”、KPCB合伙人玛丽·米克尔有过一个预判：“语音拐点已经到来，在2015年智能手机销量下滑之后，Echo销量或将腾飞。”而接下来的事实也验证女皇寓言的正确性。

在之后不久，国内智能音箱也迎来了爆发式增长，2018年国内智能音箱出货量突破2000万台，2019年国内出货量达到4589万台之多。

作为智能音箱，其核心就是语音能力，也就是要能和用户进行语音交互，而语音交互的核心是音箱能听到、听懂、理解、执行并反馈，而这其中到底能做哪些事就涉及到音箱上有多少个技能，此处的技能可以约等于APP上所说的功能。

接下来，我们一起探索下如何设计一个语音技能。

从发散到收敛

有时候要想说明白一件事情，最好的方式就是对比。

为了方便理解语音技能的特点，我们就拿APP的功能来对比，也就是语音交互和触控交互的对比。

首先我们先来看触屏操作，大家可以稍微回想下自己平时在APP上的触屏操作，几乎都是通过点击某些按键进行跳转，依次选择进入下一级或者原路返回，对吧？

所以概括来说，触屏操作是：

在有形状、有颜色、有文字、有震动等引导下的触觉交互；
触控交互是一个选择题，在多个可控区域中选择自己想要的，并点击；
触控交互无法选择开发者没有提供的选项；
大部分触控是怎么通过点击选择过来的，依然可以通过点击回去。

所以我们可以概括为触控交互是一个树状结构，从一个节点到另一个节点的可视化交互，如下图所示：

而语音交互却很不同。

首先，初期的智能音箱没有屏幕，甚至很多设备仅仅有一个很简单的闭麦指示灯，我们就拿查天气来举例子吧：

用户通过唤醒词来让设备处于聆听状态，准备接收用户的语音指令；
用户要查询当前位置的天气，可以怎么说？说天气行不行？当前的天气哪？现在的天气、最近的天气、今天天气怎么样、会下雨吗、有雾霾吗、出门需要带伞吗等等，就普通话而言就有很多种问法；
用户如果需要查询非当前位置天气哪？比如差旅目的地、家人所在地，需要怎么说？是时间+地点+天气，还是天气+时间+地点都可以？
我们看屏幕一次可以看7或者14天天气，语音要怎么实现？我继续询问说“下一天”吗？

在此种情况下，我们唤醒智能音箱后，用户的疑惑可概括为：

我什么时候可以说了？说早了，它有半句没听到，说晚了，它又闭麦了；
我们要说什么？每次只问个天气吗？是不是要说具体某天某地的天气；
怎么说是它能懂的？我用倒装句是否能行？我加个语气词哪？

这些都需要用户去摸索和学习，夸张点说的话，用户是闭着眼睛在操作设备。

此时我们再看语音交互时：

在没有形状、没有颜色、没有文字（会有部分上下文提示）、没有震动等引导下的交互；
语音交互可能是一个简答题，也可能是一个选择题，但是简答题占大多数；
语音交互可以选择开发者没有提供的选项，当然选择以后也是大概率是无法执行的。

所以我们可以概括为语音交互是一个单点呈收敛，多点成树状的结构，从很多发散的说法、话术收敛到某个意图、动作的节点，然后进入后续流程，如下图所示：

所以当我们做一个语音技能时，要先判断有哪些支持的能力，然后还要同时判断哪些不支持，而支持的能力有哪些种说法，这个部分如何收敛到有限个节点，而至于其他不能支持的，现在大部分都是走default状态回复：不好意思，没听懂。

从树状到圆环

在上面的分析中，我们说到过语音交互是一个单点要收敛、多点成树状的结构，但是语音技能中还存在网状、跳跃结构的可能性。

我们先来看APP上触控购物的例子：

筛选商品
加入购物车
收银台确认支付
支付成功

在其中任何一步，都可以点击返回去向上一步，比如当你准备支付时，女朋友说要再加个东西，你关闭收银台、反馈购物车，然后可以继续挑选商品，这是一个路径往复的轨迹。

但是当我们把购物做成一个语音技能，那么：

当语音询问用户是否要付钱时，用户是否可以说我还要买点别的？
如果用户可以说，那么是否直接去寻找商品，还是需要询问用户当前订单该如何处理？
如果用户说把已经在购物车的商品删掉，或者修改数量，或者修改收货地址，又该如何处理？

所以我们会发现，上述例子是不同节点间的跳跃、环形交互，也就是说一个节点的多种说法，在另一个节点是否允许生效的问题，而如果允许生效，则会出现环形。

但是语音中的环形流程并不友好，会有增加用户记忆负担、整个流程因为对话频次过多而显得冗长等问题，所以我们设计时还是尽量规避又长、又多的环形结构。

如下图所示，假设A为挑选商品，B1为购物车，C1为APP的收银台支付页面。灰色为APP的主线正向流程，红色弧线表示A的话术在C1生效，而当C1允许A的话术生效时，便会涉及到走两条红色的虚直线方案，还是走蓝色的虚直线方案。

当然，我们可以限制某些节点的说法只能在某些意图范围内，比如如上截图，A的说法对C1生效，但是在C2~6全部不生效；如果用户在C2~6说了A的话术，我们可以统一回复并告知用户当前仅支持某些说法即可。

当然了，此时是可以退出整个流程，类似我们在APP中某个流程中，通过系统杀掉进程一样。

从独立到共生

刚才我们通过将触控与语音对比来阐述语音技能的从发散到收敛、从树形到圆环，那么下一个问题是：语音交互和触屏交互除了对比之外，是否可以融合？

答案是肯定的，现在市面上有很多带屏音箱（市场份额如下图），其中语音交互和触屏交互就已经开始融合，比如用户说我要看周星驰的电影，那么多部周星驰的经典电影，不能一个一个播报加询问啊。

所以需要让用户看电影海报后可以用语音来选择，这个不赘述（很多智能电视也已经支持）。

（图片来源：https://www.sohu.com/a/423616757_120868906）

那我们看上图会发现还是有很多无屏音箱，此时怎么和触控融合哪？那就是涉及到触控的不一定是音箱，可以是我们的手机APP。

首先，音箱的激活还是需要手机APP的，毕竟连接你家WiFi时用语音输入密码不是很方便。BD部分、四十部分的大有人在。所以我们可以考虑在手机APP上做一些更加符合触控交互的事情，比如刚说配网这类的设置。

这类在手机APP上的操作有共性可循：一些低频但是关键信息的输入，比如购物例子中涉及收货地址、电话号码、绑定支付信息，媒体娱乐的账号资产、会员充值等，这些的修改的频率都很低，同时还可让用户自己设定一些快捷指令。

脑洞示例

说了这么多，我们可以开下脑洞：

最近看到盲盒卖菜的新闻，感觉特别适合做一个语音技能。

我们先看如果在APP上做的主线步骤：

用户要先选择某个盲盒（可能有不同价位、荤素配比的差异）
选择后加入购物车
确认数量等属性信息（比如份数）
确认是否加购
拉起APP收银台选择支付方式
确定支付及支付结果展示

首先我们先看哪些步骤在语音交互中是可以被优化、调整的，例如（为阐述简单，示例会忽略很多实际数据和现实因素，比如运费）：

我们将蔬菜盲盒减少为两种：纯素和荤素结合（当然也可以按照大小包不同量来分），一次来减少语音介绍及用户的记忆成本；
下单后不支持添加商品和修改数量，毕竟是买菜，配的盲盒就是一天一家三口的均码（请勿ETC自动抬杠）；
收获地址需要用户在手机APP上提前设置；
支付方式需要用户在手机APP上提前设置，比如免密支付、声纹支付；
允许用户在APP上设置快捷指令，比如：“唤醒词+盲盒买菜大份”来对应荤素搭配的蔬菜盲盒、“唤醒词+我要吃盲盒”来对应蔬菜盲盒的纯素版。

通过以上调整，我们的用户可以通过一句话来完成盲盒买菜的主链路，其中标号和2主要是修改节点数量（减少）和节点间的关系（一层且线性），标号3、4、5主要是用手机APP来对低频关键信息设置，也是对节点数量的优化，同时也让节点关系更加简单。

总结

通过以上分析，当我们在做一个语音技能时：

可以先考虑如果它是个触屏技能，此时要有什么能力和节点链路；
哪些节点和链路是语音交互需要支持的、哪些不需要；
哪些最好是通过手机屏幕、音箱屏幕来完成的；
需要语音支持的节点中，每个节点的泛化说法有哪些；
哪些节点间是可以任意跳转并继续流程的，哪些节点是跳转需要询问的（因为此时跳转就是从新开始了），哪些节点是不能跳转的。

—————— / END / ——————

▼ 喜欢请分享&收藏，满意点个赞，最后点「在看」 ▼

登录查看更多

相关内容

智能音箱

关注 95

智能音箱，是一个音箱升级的产物，是家庭消费者用语音进行上网的一个工具，比如点播歌曲、上网购物，或是了解天气预报，它也可以对智能家居设备进行控制，比如打开窗帘、设置冰箱温度、提前让热水器升温等。

【CVPR2021】动态度量学习

专知会员服务

41+阅读 · 2021年3月30日

【CVPR2021】坐标注意力的高效移动网络设计

专知会员服务

23+阅读 · 2021年3月9日

【经典书】计算机视觉、机器学习和图形的数值算法，392页pdf

专知会员服务

95+阅读 · 2021年1月23日

【2020新书】基本Linux终端指示技巧，376页pdf，学习如何在命令行上快速工作

专知会员服务

54+阅读 · 2020年8月8日

【2020新书】使用高级C# 提升你的编程技能，412页pdf

专知会员服务

60+阅读 · 2020年6月26日

【Manning新书】现代Java实战，592页pdf

专知会员服务

101+阅读 · 2020年5月22日

多模态学习方法综述

专知会员服务

235+阅读 · 2020年5月6日

【综述】计算机视觉驱动的时尚研究，35页pdf带你了解领域最新进展

专知会员服务

38+阅读 · 2020年4月2日

【2020新书】如何构建数据团队？:设计集成的技能、需求和解决方案，257页pdf

专知会员服务

115+阅读 · 2020年3月11日

【MLA 2019】面向开放环境的分类器学习，刘成林中科院自动化所研究员

专知会员服务

30+阅读 · 2019年11月6日

对话黄学东：语音语言技术是镶在 AI 皇冠上的明珠

微软研究院AI头条

7+阅读 · 2019年5月17日

一套PPT卖到35万，他的这些PPT技巧你也可以学会

i黑马

4+阅读 · 2019年5月5日

语音也能做持续集成和持续部署？看 Jenkins + Alexa 如何实现

DevOps时代

3+阅读 · 2019年3月5日

从零开始一起学习SLAM | SLAM有什么用？

计算机视觉life

18+阅读 · 2018年9月17日

人机交互如何改变人类生活 | 公开课笔记

人工智能头条

4+阅读 · 2018年7月9日

机器学习面试题精讲（一）

七月在线实验室

4+阅读 · 2018年1月11日

搜狗推出唇语识别技术提升远场语音交互

智东西

3+阅读 · 2017年12月14日

【NLP】周明：自然语言对话引擎

产业智能官

6+阅读 · 2017年10月19日

一文读懂语音识别史

机械鸡

9+阅读 · 2017年10月16日

干货：一文读懂语音识别（附学习资源）

数据分析

3+阅读 · 2017年7月28日

Accented Speech Recognition: A Survey

Arxiv

0+阅读 · 2021年4月21日

Cross-lingual Approaches for Task-specific Dialogue Act Recognition

Arxiv

0+阅读 · 2021年4月21日

Video Super Resolution Based on Deep Learning: A Comprehensive Survey

Arxiv

8+阅读 · 2020年12月20日

Curriculum Pre-training for End-to-End Speech Translation

Arxiv

4+阅读 · 2020年4月21日

Talking-Heads Attention

Arxiv

15+阅读 · 2020年3月5日

UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training

Arxiv

15+阅读 · 2020年2月28日

Visual Question Answering as Reading Comprehension

Arxiv

3+阅读 · 2018年11月29日

Domain Specific Approximation for Object Detection

Arxiv

5+阅读 · 2018年10月4日

Commonsense for Generative Multi-Hop Question Answering Tasks

Arxiv

4+阅读 · 2018年9月17日

iVQA: Inverse Visual Question Answering

Arxiv

5+阅读 · 2018年3月16日

VIP会员