语音助手被认为是下一代人机交互的入口,近年来,国内外科技公司竞相入局。今年 2 月,OPPO 小布助手的月活突破 1.3 亿,成为国内首个月活用户数破亿的手机语音助手。这个数字背后,有什么高增长的秘诀,有什么样的技术力量作支撑?
10 月 25 日,InfoQ 和 CCF 联合推出的大咖说栏目《技术风云 | 对话 CNCC》第 4 期直播开播。本期大咖说,我们邀请到了 OPPO 高级总监万玉龙,来跟我们聊聊 OPPO 小布助手的技术创新与应用实践。
以下内容节选自当天的分享,InfoQ 做了不改变原意的编辑:
万玉龙:小布助手是搭载在 OPPO、Realme 和 OnePlus 这三大 OPPO 品牌上的智能助手产品。
我们推出小布助手的初衷是,首先希望为 OPPO 万物互融新生态建设服务,成为关键的战略控制点。我们希望依托 AI 技术,基于数据智能驱动人机交互的用户体验不断升级。
小布助手的定位不只限于语音助手,目前已经包含了语音、指令、建议、识屏和扫一扫 5 大能力,是人机交互最直接的信息媒介。我们希望通过小布助手为用户提供跨终端、全场景、智慧有度的服务体验。
万玉龙:同友商相比,我认为小布助手最大的差异点在于发展速度。
OPPO 是最晚推出智能助手产品的,但是最早实现月活破亿的。截止目前为止,小布助手已经累计搭载了 2.5 亿设备,月活用户数突破 1.3 亿,月交互次数达 20 亿。
我们的技术研发投入持续增长,成果丰硕,比如小布助手的语义理解算法在行业最权威的中文语言理解测评基准上持续处于第一梯队的位置,同时我们也在今年获得了由中国信通院组织的安全性、可靠性和隐私性的可信 AI 证书。
万玉龙:小布助手的整体技术架构同传统智能助手类似,包含了端和云的计算单元。其中端侧包含音频采集、声学信号处理、人声检测、声纹识别和语音唤醒等语音算法模块,同时端侧也部署了指令、推荐等部分能力模块。云端则包括语音识别、语音合成、声纹属性识别、语义理解和对话管理、知识图谱、推荐建议等对话式 AI 能力,同时也包括听歌识曲、音乐理解生成等创新功能模块。
从 2018 年底推出小布助手前身 Breeno 语音到现在,短短三年时间我们累计迭代了 40 多个版本。
最近半年我们推出了一些重要更新,主要围绕能力拓展和交互模态升级两大方向。能力拓展方面,小布助手在语音助手基础上新增了识屏、扫一扫、主动建议、视频通话等能力,更多维度的为用户提供智能服务。同时,在最近一次迭代中,我们推出了小布虚拟人,这也是业界首个基于虚拟人多模态交互的手机智能助手。
万玉龙:小布虚拟人第一版实现了天气播报和新闻播报这两个垂直场景的落地,这两个场景更多侧重于信息的反馈表达,能更加体现虚拟人的交互价值。
在技术层面,我们在传统语音交互技术基础上针对天气和新闻播报场景做了特定意图的优化定制,同时分析理解所需播报内容文本,生成对应文本所需的动作、表情和嘴形,基于 AI 驱动和智能捏脸等技术生成虚拟人的容貌、表情和动作等,最终将语音合成的音频和虚拟人的视频进行时间戳对齐融合,实现最终的小布虚拟人产品形态。
与友商相比,小布虚拟人的应用场景和服务用户群是不一样的。小布助手首先是智能助手,已经拥有 1.3 亿的月活跃用户,我们会基于线上真实用户的需求分析做体验升级,并结合用户的个性化信息给予用户更贴心和个性化的交互体验。同时,小布也不仅是智能助手,我们希望小布能成为用户在数字世界里的朋友。
面向未来,我们还会为小布虚拟人提供更加个性化定制能力,逐步开放唤醒词定制、发音人定制、形象定制、性格定制、内容服务定制等开放能力。
目前,我们首先希望能够允许开发者为小布定制更多场景所需的虚拟人,让开发者帮助我们同亿万用户建立技术桥梁,搭载到更多智能设备上。比如说在电商场景定制一些具备品牌特色的带货主播虚拟人,在天气场景定制具备地域特色的天气主播等。目前这些平台能力正在开发中,未来将逐步面向开发者和用户开放。
万玉龙:多模态融合交互技术分为信息处理和信息表达两个层面。
在信息处理层面,小布已经包含了五大能力,其中识屏和扫一扫融合了视觉图像算法,形成了多模态解决方案。在信息表达层面,虚拟人本身就是多模态表达技术的尝试,我们希望借助表情、动作、嘴形等方式让人机交互体验变得更加自然,让信息传达效率更高。
万玉龙:情感分析是非常大的话题,在行业里,这也是比较难的问题,背后涉及多模态技术的融合。通常需要将图像、语音、文本等信息识别结果融合在一起来判断用户交互时的情感,并基于用户情感实时调整交互策略。
小布尝试过根据用户的请求文本分析用户当前的情绪状态。比如说用户表达一些与孤独、难过相关的文本时,我们会及时理解用户当时的心情,给予相应的安慰。有些用户的情绪波动比较大,他们表现得非常愤怒的时候,我们会基于文本分析,尝试通过转移话题去平复用户的极端情绪。
我们后续希望基于声学特征分析,结合声学和文本的信息更好地理解用户。比如 Apple 最近申请的一项专利是可以根据用户发出语音请求的音量,实时调整回复用户时的音量,也是类似思路。
更长期来说,当用户习惯与智能助手面对面沟通后,也可以结合视觉信息去更深层地了解用户的情绪。比如说可以基于摄像头判断用户当前的表情,看他是不是有皱眉,有愤怒的表情等,并给出相应反馈。Google 已经在做类似尝试,是基于用户双眼的聚焦判断用户是不是真的在跟智能助手对话,我觉得这类技术融合是大的趋势。
刚才提到转移话题,我们会根据后台大量的人和机器闲聊的对话语料,通过搜索式闲聊匹配得到一些可能引导用户进入下一个话题的方式,将用户引导到可能让用户缓解情绪的另一话题。比如尝试给用户讲个笑话,或者推荐一些小游戏等等。
万玉龙:在 OPPO 的 AI 战略里,小布助手是最重要的关键点之一。
随着大家生活逐渐变得更加复杂,时间更加碎片化后,智能助手可以帮用户处理很多事,缩短用户和服务之间的路径。比如说可以通过一句话直接查询天气、显示健康码等,而不需要单独打开一个 APP。
小布助手希望让用户跟服务之间的实现路径越来越短,让用户尽可能“偷懒”,我觉得这是智能助手真正能够体现价值的点。
万玉龙:小布助手面临的识别场景是非常复杂的,因为手机经常会在嘈杂的环境中使用,会有很多无效音频。对于用户来说,无效音频识别不好或者没有识别到,对需求满足度来说影响不是特别大。
为了评价用户体验,我们会分析用户线上的有效音频实际录入的技能领域和场景,构建不同的场景测试集以及领域测试集,进行分析评估。
从评估结论看,我们在通用的识别率上还是满足了大量用户的实际需求的,但是在闲聊这样开放的场景上还是存在一些小问题,希望能够在未来做更多提升。
万玉龙:智能家居目前的核心设备是智能音箱。
OPPO 在智能音箱单品上走得相对较晚,但在智能家居场景我们也有一些尝试。比如 OPPO 电视就支持语音交互,一些可穿戴设备也支持交互。
OPPO 强调万物互融,之所以是“互融”而非“互联”,是因为我们强调用户在多终端的体验是无缝衔接的。小布助手是 OPPO 万物互融战略下最为关键的角色之一。ColorOS 是我们多设备的最底层操作系统,我们在底层也实现了一些多设备协同智能的能力。比如我们可以通过手表、手环查询手机的位置,找不着手机的时候可以让手机发出声音等等。未来我们希望能够根据用户对于智能场景的需求,不断调整我们的战略方向。
万玉龙:小布助手目前还是围绕着 OPPO 智能设备的 C 端用户在做产品迭代,我们更多关注用户体验本身。
我们会基于线上一些没有被满足的请求的分析,不断优化我们的领域技能。其中有一些会涉及跨领域、跨应用调度的操作,比如说我们希望通过小布直接满足用户的导航需求等。
在行业选择上我们没有特别的偏好,还是基于用户线上的需求分析去做针对性优化。
小布作为手机智能助手,本身满足的很多需求不是像金融这种专精领域的需求。它更像全能型助手,需要满足用户更泛化的需求,不像导航或者金融类 APP 等是专家型助手,可以很好的满足垂直领域的需求。
我们中间也踩过一些坑。比如用户希望小布完成导航需求时,需要调起导航 APP 联动,之前跟导航 APP 联动时,只是把一些识别到的导航意图分发给导航 APP,让导航 APP 去执行对应导航任务。但有时导航 APP 会存在异常情况,拿到指令后没办法很好地执行完成,用户需求并没有被满足。后面我们在跟三方 APP 联动时也会关注他们的异常情况,来保证用户端到端体验。
万玉龙:智能助手服务的对象是用户,还是要回归我们服务的用户本身。
每个智能助手所面对的用户群和所涉及的场景不太一样,比如说智能音箱的用户更多是在家里听歌,或者查天气、定个闹钟等需求,不太会涉及到用户日程管理等。
而小布的用户还有需求做一些闲聊、日程管理、信息查询这样的技能需求。我们不仅要满足好用户主动提出的一些需求,也要充分了解用户,通过主动服务的方式来给用户更加智能的体验,真正实现我们期望中的“随身随地的智能助手”这一目标。
同时随着小布的情商不断提高,不少用户会把小布作为情感寄托,去和小布聊一下不太愿意跟身边人去聊的话题,类似虚拟陪伴、虚拟恋人这样的定位。如何让这类用户的体验能够变得更好,也是我们需要努力的方向。当然未来是不是可以通过这种方式去出圈,我觉得不那么重要。最终还是要回到说,我们到底在满足用户,或者说为了用户的体验去做哪些事情。
万玉龙:肯定要去尝试的。之前有些创业公司也在做这种虚拟男友、女友,只不过背后很多都是真人。对于用户来说,如果机器能够做到真人的交互体验,那么对方是真人还是机器人不是那么重要。用户无非就想找到渠道满足情感寄托的需求。小布有这么多用户,也会往这一方向去做尝试。如果有朝一日 OPPO 手机用户在找不到情感寄托的时候想到小布,我们的目标也就达成了一半。
万玉龙:谈到隐私风险,大家无非就是关注我们会不会拿用户的数据去做一些不好的事情。在当前,AI 系统的确需要基于真实数据来进行模型迭代优化,这是当前的技术瓶颈。
但同时我们是非常重视用户隐私的,在数据标注时,会把用户敏感信息相关字段全做脱敏处理,为用户隐私安全保驾护航。
同时在技术方面,我们也在尝试基于大规模无标注数据去做模型训练,用非常少量有标注数据做模型优化迭代,现在已经有一些进展。未来我们希望能够做类似尝试,更好的保障用户数据隐私安全。
万玉龙:我觉得是不存在的。首先,像 OPPO 这样的公司是跟欧盟一些公司合作的。欧盟 GDPR 规定里有很多条例会要求我们在采集用户数据时要跟用户签署隐私协议,同时在数据存储、处理和删除等方面遵循很多条例。
同时,行业内在数据存储、标注等工作上也有很好的流程规范,避免用户隐私相关数据被泄露。因此我觉得用户可以放心这一点。
万玉龙:我认为是没有矛盾的。首先从通用走向个性化定制是大趋势,这是服务粒度的问题,是从粗粒度到细粒度的过程。
目前各大厂都在尝试通过千亿、万亿级参数量的大模型优化语音识别、对话理解、知识问答等任务的效果。同时在大模型不断研发的过程中,我们还是希望去覆盖更多的边缘场景。
回归到个体用户来说,永远存在一些大模型解决不了的任务。比如说用户要用智能助手打某个联系人的电话,通用模型很难匹配到用户通讯录里面对应的人名。针对用户通讯录的识别就是典型的个性化任务。这本身不是矛盾的事情,而是的的确确存在的需求。
在研发资源比较有限的情况下,我们首先还是会专注于当前比较高频、高优先级的用户需求优化。同时我们会根据服务的用户群体去做分层优化,判断哪些需求对于用户来说是优先级更高的,进而逐步满足更多用户的个性化需求,逐步实现所谓的千人千面,终极目标是希望为每个用户打造独一无二的智能助手。
万玉龙 :我觉得这是定位和期望两方面因素导致的。
首先,当我们的智能助手有比较清晰的功能定位后,用户对智能助手的期望就会限定在一些特定的场景。还是拿导航 APP 来说,百度地图和高德地图都有自己的语音助手。当我们打开导航 APP 之后,我们对于那个助手的期望就限定在了路线查询、出行规划这样一些场景。我们并不希望它去满足比如闲聊或者其他领域的任务,天然就不会强求它情商特别高。这时用户的期望跟技术现状是非常匹配的。
回到手机助手,手机助手的定位是非常广的,用户期望也是非常高的,希望它无所不能,这时候反而会比较尴尬。因为技术是存在瓶颈的。
横向比较,全能助手不比专业助手差,但在专业领域去做 PK 的时候全能型助手一定非常吃亏,因为技术瓶颈就在那里。我们希望通过助手去满足这么多垂直任务的时候,目标是很难达成的。当然我们也都在努力,期望未来在每个专业领域都能更好地满足用户的期望。
万玉龙:我认为商业化本质是价值兑现,就是客户愿不愿意为 AI 买单,根源是我们到底为客户解决了多少问题。苹果已经推出了 Siri 付费的计划,Siri 后续会以月服务费(包含在 Apple Music 服务中)的方式,让用户通过它控制音乐播放或者内容控制。这也给我们带来一些思考,就是 AI2C 的收费模式到底成不成立,这都是有待验证的。
刚才我们提到小布虚拟人。现在各家都在做虚拟人自定义、个性化,有点像 15 年以前的 QQ 秀。据说 QQ 秀是腾讯当年为数不多实现商业化的产品。回归到虚拟人,如果我们的虚拟人未来的个人化定制能够引发像当年用户给 QQ 秀买衣服的诉求,我认为 2C 的商业化模式就有机会了。
还有一部分的商业化模式是 2B 的,就是向 B 端用户收费。我们首先要看看智能助手能不能像微信或者抖音那样形成具备大规模用户的平台,平台形成之后,B 端的商业化模式也可能就成立了。不管是 2C 还是 2B 的商业化模式,大家都在摸索过程中,一切都在等待验证。
万玉龙:每家公司都有自己的基因所在。OPPO 在智能手机行业逐渐形成行业影响力之后,本身就是带着硬件基因在不断发展的。所以公司做事情的时候肯定是以硬件为基础,再在上面搭载软件系统。
随着硬件的销量增加,用户的使用频次增加,公司积累了大量的数据,我们开始希望基于数据驱动提升智能体验。
我认为 AI 产生更大用户价值的载体一定是硬件。我们希望通过小布让 OPPO 的硬件产品具备更加智能的感觉,同时通过小布打造多设备的万物互融生态,为用户提供跨终端、全场景的智能交互体验。
因此选择软硬件结合的路线,一方面因为这是 AI 行业比较好的实现路径,另外对于 OPPO 来说它是最合理的一条实现路径。
万玉龙:我觉得能打 80 分。
我打 80 分的依据是因为现在确定性的一些任务已经做的不错了。比如说像天气查询、音乐播放等任务已经解放了用户双手,这部分需求占据了将近 80%。剩下的 20% 是更加开放的技能领域,比如说闲聊等,这块离用户的期望还是比较远。
另外从场景挑战来说,智能助手还有很多比较复杂的场景还没有解决。比如说语音方向,在鸡尾酒会这样的多人说话场景行业还在尝试解决。未来我们希望智能助手能够像真人一样,在多人说话的场景也能聚焦在它真正需要对话的用户上,期望能够早日实现 90 分的体验水平。
万玉龙:这要回归到智能助手解决的两个方向的问题,第一个方向是信息处理,第二个方向是信息表达。
在信息处理阶段,现在行业主要基于语音、文本这样单一的信息点做交互,未来肯定会融合更多的多模态信息,比如语音 + 视觉 + 传感器信息等,真正实现情景智能和情感智能。
情景智能是说,助手会结合用户所处的环境信息,以及用户当下所处的情景去给用户比较适宜的反馈和需求满足。情感智能是说,我们希望借助用户的表情、声音的状态去理解用户当前所处的情绪状态,给用户更合理的反馈。技术方向上肯定是从单点技术更多往多点技术融合的方向去做。
在信息表达阶段,目前虚拟人技术实现了从 0 到 1 的产品形态升级,但是虚拟人的外貌、表情、动作、声音等方面还是有很大的提升空间。我们想要做到更加自然的、让人更有代入感的人机对话,甚至通过图灵测试,前面还有很多弯路。比如说声音定制,如何让语音合成的自然度、流畅度,包括停顿、语气等,能够让用户感觉更加自然,这就有很多技术需要突破。
万玉龙:我们认为下一代的智能助手应该是多模态、个性化的,能够根据用户的偏好随时随地调整交互策略。
同时随着智能设备的多样化,我们也希望智能助手是跨终端的,让用户的交互体验能够做到真正的无缝衔接,无论是车上的交互体验、智能家居的交互体验,还是随身可穿戴的交互体验,智能助手都能保持一致,让用户真正随时随地体验到智能交互的优越性。
以上就是本次大咖说对话的全部内容。
如果大家还想了解关于 OPPO 小布助手的更多信息,请关注将于 12 月 16-18 日在深圳举办的 CNCC2021,届时 OPPO 的技术专家将在大会上做精彩的报告。
大咖说嘉宾介绍:
万玉龙 ,OPPO 高级总监,中国科学院工学博士,北京大学理学 & 经济学双学士。曾在阿里巴巴达摩院和中国科学院工作,长期从事语音、多模态等人机交互技术研发和产品化工作,工作成果应用于小布助手、高德地图、淘宝直播、支付宝、斑马互联网汽车、夸克浏览器等智能助手产品。
点击底部阅读原文访问 InfoQ 官网,获取更多精彩内容!
今日好文推荐
点个在看少个 bug 👇