在智能手机的上一个时代,全局搜索曾经是一个非常惊艳的功能,一条工具栏就能解决跨应用信息的检索。不久之后,以语音助手为核心形态的全新搜索交互方式如雨后春笋般涌现,随即开始了识别算法大战。
语音识别作为一个介质,最终的目的,还是提供更多元的智能服务,面向可预见的万物互融时代,人与端、软件、内容之间的关系无疑将更为复杂,这背后涉及到设备、算法、服务的综合处理能力。
OPPO 数智工程事业部总裁刘海锋
▍做智能助手的难度可能不亚于自动驾驶
虽然工作性质不同,但毕竟都属于科技从业者,我们的话题从整个 AI 智能的发展现状聊起,刘海锋非常坦诚地说:
「这个事一直是这样一个特点,梦想是很丰满,但当你真正去踏足这个领域的时候,你会发现挺骨感的,而且 AI 也不是什么新的事情,有几十年的历史,经历过很多的波澜起伏。」
「人工智能简单上理解可以分成这么几类,一类是 content(内容)+ AI,另一个是 hardware(硬件)+ AI。」
人工智能发展了几十年,目前用户感知明显的,主要集中在内容推荐领域,通过算法匹配用户喜欢的内容,从而获得超出以往的产品粘性。刘海锋表示,AI改变内容的体验是非常成功的,创造出很大的商业价值,同时也涌现出一批成功的公司。
而以硬件 + AI 的技术领域,涵盖视觉、语音等多领域 AI 技术,更为复杂,这其中就包括了以后深刻影响生活的智能驾驶。而智能驾驶作为 AI 科技落地转化的重要应用领域,也正处在螺旋式上升的发展过程中。
刚好我近期实测了两个主流电动汽车品牌的自动驾驶能力,实际上也还算很早期的状态,通过识别车道线,侦测周边距离做基础判断,而路面施工,标线不规范的特殊情况,都会让车机无所适从,应急能力差很远。
然而,被我们熟知,甚至习以为常的智能语音服务,从某种程度来说,技术开发难度并不比自动驾驶简单,它同时包含了内容 + AI 与硬件 + AI。而具体到智能语音方面,由于人的对话行为存在太多变数,不同的环境、时间、场景、情绪下,同一句指令的目的都可能不一样,对话的内容复杂程度,对「知识性」的要求也相当高,这也是大部分智能语音助手最终只能把结论甩锅给搜索引擎,也就是帮你打开网页,剩下的事它也无能为力了。
为此,OPPO 自研了小布助手的技术方案,包括对话架构系统,语义理解算法模型,开放聊天算法等等,恕我无法准确描述复杂的专业术语,但实测呈现的效果就是更懂你,更准确,更快速。但做到这些显然还不够。
刘海锋说:「今年我们团队比较有成就感的方面,是在长尾的知识性问答上取得了突破。一般对话的 AI 助手都能够把常识性的问题做的不错,长尾问题可能只占 5%,但我们今年在这块做了一些工作。我们要获取很多的知识来预训好一些模型,在过去一年里我们把长尾问题回答准确率明显的提升。现在基本上能够做到 70% - 80% 的线上长尾问题,都能够得到不错满意的回答。」
小布助手建立自己的知识数据库,针对性地做内容细分,比如自建天文知识,民乐百科,AI 谱曲等等。我特别挑了几个生活中的小众问题,比如中药里的夜明砂,食物里的折耳根,都没有难倒它,而且来源都是小布问答。最后问了一个水獭相关视频,视频源显示是各大视频平台,但内容整理是小布影视,说明小布团队在中间做了大量索引、整理、训练的工作。
除了内容整理,更难的还是用户情绪理解,通过多年的数据积累,小布助手已经具备了一定的情绪感知能力,大致可以分为开心,感激,夸赞和难过四大类,通过分析用户对话和语气,小布也会提供不同的内容和声调来回应用户的情绪。
我也测试了几个有趣的场景:比如当我表示责备时,他会有嗔怪的语气。说自己不开心的时候,会有安慰的语气,配合可爱的动画。最后向他倾诉生日的时候,直接来了一个生日大动画,还可以配合麦克风吹蜡烛,带来了不小的惊喜。
正如刘海锋所说:「这个主要是驱动于我们对产品的一些思考,我们觉得不能单纯做技术,还是回到人本身的需求,所以你可以理解为科技为人。」
对于智能驾驶而言,交通环境拥有其相当高的复杂程度,更有安全、有序、高效的应用要求,而与此同时,人的需求与情绪更是万变的,所以,智能助手更考验对人性情绪的正确理解、准确回应、与精准链接。我们期待更多复杂可以被解决,当智能驾驶成为未来智能生活的必要一环,智能助手有能力串联场景成为关键中枢,万物互融或许才算真正到来。
▍三个方向,也是三个挑战
锚定万物互融时代的智能中枢,面临的问题和挑战也将更为复杂与综合,刘海锋给我们详细分析了三个方面的难点,而同时这也将是小布助手当下发力的三个重要方向。
1. 更广泛的多端硬件接入
手机只是入口之一,手表、耳机、眼镜、电视、汽车乃至更多电器等等,都是智能助手大有可为的空间,这当中既包括 OPPO 自身生态产品,也将囊括更多第三方设备。要在不同的设备上,完美接入小布助手,背后的技术难度相当大,毕竟这些设备的算力性能、场景功能都不一样,但用户对体验的要求不会妥协,所以必须要在有限的时间里,跨部门,跨公司的完成部署和测试,靠技术团队全力攻关。
面对这样的挑战,刘海锋表示:「围绕整个开放生态拓展,我们必须交付到更多的硬件产品上面,不可能所有的东西都是我们公司做的,这必然会面临一个问题——我们要做开发者平台,我们通过 IOT 的开放,一些生态上的选品去拓展,这个也是我们很重要的工作。」
2. 海量的内容和应用服务接入
说到生态服务,解决完硬件还不够,应用服务更重要。用户不仅是问问题,还需要解决问题,所以联合三方应用,建立基于语音的服务生态,也是巨大考验。不管是出行信息,购物检索,还是生活娱乐,都要跟第三方服务深入打通,比如可以语音直达快手直播间、点歌播放,都要和三方应用联动开发,尽量减少跳转阻碍,让服务体验一步到位。
未来,生态服务接入将会成为另一个重点,小布希望通过智能助手这个入口,给开发者们带来更多的可能性。
3. 智能助手的多模态交互创新
回到用户交互端,语音语义识别算法已经属于基础能力了,今天的小布助手,不仅要提供语音的反馈,还有做出个性化的定制,要根据用户喜好,给出不同的声线选择。要想让交互无缝融入用户生活,符合用户习惯,就要在这些细节上下功夫,光有个性声音还不够,要让助手具像化,进而推出虚拟形象布美美。这里涉及了智能表演驱动引擎,图像渲染合成等大量新技术。
「明年会把小布的虚拟人做一个升级,今年的发布,相对来说还是比较初步的第一个版本,明年会迭代第二个版本,会有一个比较大的升级。」
刘海锋透露小布助手明年的计划中,虚拟人将会获得更大的升级变化,让它越来越真实,越来越亲切。
▍智能助手可以无处不在
说到这,我们也不得不提一下当下正火的「元宇宙」这个词,虚拟世界到底能建设成什么样?是不是能更多替代现实生活,一切都没有固定的答案。但可以明确的是,智能助手会成为新的关键点,在虚拟世界里敲虚拟键盘和戳屏幕,玩过 VR 游戏的用户应该深有感触,实在太难受了。我们印象深刻的电影《钢铁侠》中的 AI 助手贾维斯,就是一个完美的秘书形态,几乎可以在任何时间,帮你做任何事。相对于黑客帝国的脑机连接虚拟世界,前者肯定会更快到来。
我跟刘海锋聊到这点也有共同的认知,智能助手将无处不在。
「戴上眼镜之后,跟眼镜对话,比跟音箱和手机对话更自然一些,元宇宙,大家理解不一样,要从技术的来说主要就是 AR、VR 的眼镜,这是它一个很重要的载体。会不断有更多新的载体出现。后面肯定对 AI 助手是不断利好的。」
因此,小布助手就是现实和虚拟的一个连接点,以前我们是依赖屏幕交互,未来可能会迁移到 VR 和 AR。当然,所有的想象,都要基于用户需求,就像这次小布助手推出的新功能,开始针对不同的人群定制 AI 服务能力,语音进入小布有童心模式和关怀模式,自动切换界面,同时提供他们常用的服务,这些人群更应该使用语音入口,更值得被特别关注。类似的针对性开发会持续进行,也可以充分训练小布助手的对不同用户群的理解能力。