专访 | 语音助手的涅槃关头,我们应该完全抛弃屏幕还是选择“语音+图形界面”?

2017 年 4 月 18 日 AI科技评论

AI科技评论距离苹果Siri的推出已经快6年了,期间很多智能手机厂商也纷纷将语音助手列为卖点之一,但是其使用率一直不高,究其原因,还是语音助手的功能有限。不过随着深度学习带来的技术进展,以及亚马逊的Alexa的大获成功,智能语音助手获得了前所未有的关注,很多人都认为,语音将是下一个流量入口。


上周,乐视推出了带有智能语音助手的手机,这款手机搭载的语音助手就是去年AI科技评论曾报道过的创业公司奇点机智的产品——“小不点”。对此,AI科技评论对奇点机智联合创始人林德康进行了专访。


奇点机智联合创始人:林德康

林德康,前Google高级管理科学家(senior staff research scientist),主攻自然语言处理。在加入Google之前,林德康是加拿大Alberta大学计算机教授,发表过逾90篇论文、被引用超过12000次,他也是华人圈少数几个国际计算语言学会ACL Fellow之一。

“小不点”宣传视频

奇点机智成立于2014年11月,两位创始人邬霄云和林德康曾在谷歌工作,并且在自然语言处理方面都有着深厚的技术和经验积累,该公司曾先后入驻微软创投加速器(MVA)第六期、以及TechCode孵化器。至于为何会选择做语音助手?林德康表示,最主要的目的并不是因为门槛的降低,而是因为语音助手确实有用。

虽然都是语音助手,但是“小不点”和苹果的Siri、微软的Cortana等不同。传统语音助手除了能够执行系统级别的功能,比如设置闹钟、打电话等,功能十分有限,更像是一个“搜索引擎”;“小不点”则抛弃了业界流行的单独的语音对话界面,转而帮助用户用语音来更便捷地操作手机里的各种APP,比如发微信红包、打车、定外卖等,更像是一个“动作引擎”。

因此,使用小不点的用户虽然是用语音在与手机交互,但是同时也在与手机的图形界面进行交互,这就是林德康提到的CGUI——Conversational Graphic User Interface。

为什么苹果Siri推出多年,功能依然十分有限?

对于小不点来说,其与同类产品最大的不同可能就是最后的实现过程了。

目前市面上大多数的语音助手度需要集成第三方应用的API,才能实现调用功能,然而这一方法存在很大的弊端,因为这会涉及到与第三方APP之间的谈判,覆盖的速度会很慢,而且很多语音助手都想将其他APP的功能集合到自己的界面之中,因此开发者们往往会有抵触情绪,这也是为什么苹果Siri这样的语音助手在推出这么多年之后,功能依然十分有限的原因之一。

用小不点发微信红包

而小不点则是使用了安卓系统里面针对视障用户的Accessibility辅助功能,可以直接读屏,然后实施虚拟点击操作,因此不需要调用第三方APP的API。比如用微信发红包,用户说完“给XXX发10块钱的红包”之后,小不点就会打开微信,并查找联系人,然后跳转到微信发红包的界面,并预填好10块钱的金额,你需要做的只是确认发送。

不过,林德康表示,他们并不排斥接入第三方APP的API。

此外,小不点还有一个比较智能的学习功能。你可以通过这个功能教会小不点实现目前还不能完成的操作,而且小不点在学会之后,其他的用户未来也有可能使用这一功能。据悉,奇点机智已经为这一独特功能申请了专利。

比如,如果你想让小不点学会帮你“点一杯咖啡”,那么你可以直接告诉它“学习点一杯咖啡”,激活自动学习的功能,接下来你就可以开始按平常的步骤进行操作,并在所有操作完成后点击“结束学习”即可。由于小不点会记录这些操作过程,因此下一次只需要对它说“点一杯咖啡”即可自动完成所有步骤。(以下是在乐视手机上的演示视频)

由于以上两点优势,小不点能够在很短的时间内覆盖尽可能多的APP。据奇点机智透露,小不点目前已经覆盖了50多款常用的APP,具备上百种功能。

虽然目前小不点的公开版本还只能实现一轮对话,并不能一直在后台聆听,但是其内测版已经实现了多轮对话,可以通过语音实现连续操作,而不需要重新激活。(如以下视频所示)

「给小乐发微信」 ->「发送我在这里你快过来」->「发送我的位置」->「发送XXX和OOO的名片」->「视频聊天」

背后的技术

1. 语音识别

虽然奇点机智是一家创业公司,而且小不点研发周期也只有1年多的时间,但是林德康表示,目前小不点并没有采用第三方的语音识别技术,而是奇点智能一个5人左右的团队自己研发的,而且采用的就是谷歌的TensorFlow框架。

林德康向AI科技评论透露,其实之前小不点曾采用百度语音服务来进行语音识别,后来才选择自己做。为什么呢?原因有以下几点:

  1. 如果使用第三方的语音识别的话,首先需要将音频传过去,然而传回来的一般就只有一句话。但是实际上在这句话有很多的可能性,而第三方只会在众多可能性里挑选一个它认为最好的传回来。但是如果是自己能够掌控这一过程的话,就可以将众多可能性先预留着,然而再下一步的时候看哪一种其实更说得通。

  2. 采用自己的语音识别技术可以针对某些特定场景进行优化,比如在识别微信通讯录里的人名的时候,如果采用第三方接口,不一定能够识别正确,但是如果是自己的语音识别技术,系统就可以参照通讯录里面的名字进行实时更正。

  3. 由于深度学习这一革命性进步的出现,让语音识别领域重新洗牌,几乎所有玩家都站在了同一起跑线上,大幅降低了后进者的门槛。因此虽然奇点机智起步较晚,但是实际上的技术差距并不大。

不过一个小团队的一年的努力,真的能够与大公司相比吗?虽然林德康并没有给出用来衡量语音识别的词错率(word error rate)的具体数值,但是他表示,在实测体验的过程中,两者表现差不多。不过,目前小不点只支持普通话,并不支持方言。

除了不断地投喂数据,训练语音识别的算法模型之外,还有哪些方法可以提高语音识别的正确率,降低用户在使用过程中的挫败感呢?林德康举了一个例子。他表示,研发会根据APP的名字来优化语音识别的准确率。比如“摩拜单车”的“摩拜”两个字在通用语料库里可能并不是排名最高的,但是对于小不点的用户来说,可能大部分时候指的就是“摩拜”,因此在优化时,他们会将这点考虑进去,来提高用户的使用体验。

而且作为一家小团队,奇点机智除了购买训练语音识别模型所需要的标记数据之外,还专门开发一款APP,让员工利用碎片时间,来专门标注训练所需要的数据。

2. 语义理解

由于公司的两位创始人都有NLP(自然语言处理)的背景,因此在这一部分会有一些优势。林德康在回国之前就是谷歌做自动问答系统的,他表示其中有很多东西都是类似的。

比如实体识别,包括人名、地名、电影名等专有名词,这些都是最基本的,但是要理解整句话的意思的时候,就需要推理功能了。比如当你说“我想去成都”,那么我们可能就会给你用携程等软件搜寻火车票或者机票,如果你说“我想去积水潭医院”,那么我们可能就会用打车软件给你预订车辆。因此只是将一个个的关键词列出来是不行的,还必须将每个词进行分类,然后根据词的表达结构做推理,才能真正理解用户的意图。

林德康认为,做自然语言理解最怕的就是边界,比如Facebook的Messenger Bot聊天机器人,里面上下文的关联太多。而做小不点这种类型的语音助手相对容易一些,虽然语音助手的可能性也非常多,但是它能做的东西是有限的,因此是存在边界的,比如不会用户不可能用携程去交水费。

语音助手的未来:语音+图形界面

2014年11月,奇点机智获得了徐小平100万美元的天使轮融资;去年3月底,奇点机智又获得了襄禾资本和NEA资本500万美金A轮融资。虽然已经获得两轮融资,但是作为一家创业公司,未来的盈利模式很显然也是需要考虑的事情。

林德康表示,目前团队的注意力主要集中在打磨产品,争取与更多的手机厂商合作,未来还会推出独立的APP,暂不考虑盈利的事情。

AI科技评论了解,由于奇点机智不会向合作的手机厂商收取费用,未来很可能会通过为第三方APP提供流量入口来获取盈利。比如目前用户想通过小不点来订餐,但是在用户没有指明APP的情况下,小不点会默认打开“饿了么”,如果你的手机里面没有饿了么,那么就会跳转到饿了么的下载页。当然,你可以直接告诉小不点,你想通过美团或者百度来定外卖。

对于语音助手未来的发展前景,林德康虽然也认同语音是下一个流量的入口,但是他认为“语音+图形界面”才是未来,而不是Alexa那种完全抛弃屏幕的做法。

虽然林德康表示,利用模拟点击来实现语音操控APP的功能是小不点的首创,但是近日网上流传出来的演示视频显示,三星的智能语音助手Bixby采用的也是和小不点相同的方式,这也从侧面验证了奇点机智方向的正确性。

不过,目前计算机还无法真正理解人类的自然语言,这也是为什么就连Facebook、谷歌等科技巨头的聊天机器人想要实现多轮对话依然十分困难,据外媒报道,Facebook的虚拟助理M和Messenger bot的进展很不顺利,其中M能够正确回应的请求只有 30%,使用情况令人失望。因此,奇点机智的这条路或许没有很高的技术门槛,但是却更加实际。

报名 |【2017 AI 最佳雇主】榜单

在人工智能爆发初期的时代背景下,雷锋网联合旗下人工智能频道AI科技评论,携手《环球科学》和 BOSS 直聘,重磅推出【2017 AI 最佳雇主】榜单


从“公司概况”、“创新能力”、“员工福利”三个维度切入,依据 20 多项评分标准,做到公平、公正、公开,全面评估和推动中国人工智能企业发展。


本次【2017 AI 最佳雇主】榜单活动主要经历三个重要时段:

2017.4.11-6.1 报名阶段

2017.6.1-7.1  评选阶段

2017.7.7    颁奖晚宴

最终榜单名单由雷锋网AI科技评论、《环球科学》、BOSS 直聘以及 AI 学术大咖组成的评审团共同选出,并于7月份举行的 CCF-GAIR 2017大会期间公布。报名期间欢迎大家踊跃自荐或推荐心目中的最佳 AI 企业公司。

报名方式

如果您有意参加我们的评选活动,可以点击【阅读原文】,进入企业报名通道。提交相关审核材料之后,我们的工作人员会第一时间与您取得联系。

【2017 AI 最佳雇主】榜单与您一起,领跑人工智能时代。

登录查看更多
0

相关内容

【实用书】Python技术手册,第三版767页pdf
专知会员服务
235+阅读 · 2020年5月21日
德勤:2020技术趋势报告,120页pdf
专知会员服务
190+阅读 · 2020年3月31日
Yann Lecun 纽约大学《深度学习(PyTorch)》课程(2020)PPT
专知会员服务
180+阅读 · 2020年3月16日
微软小冰:全双工语音对话详解
AI100
7+阅读 · 2019年2月10日
“万人迷”小冰背后的AI故事
AI100
6+阅读 · 2019年1月13日
小冰,请接电话!
微软丹棱街5号
5+阅读 · 2018年4月18日
搜狗推出唇语识别技术 提升远场语音交互
智东西
3+阅读 · 2017年12月14日
一文读懂语音识别史
机械鸡
9+阅读 · 2017年10月16日
阿里智能对话交互实践及范式思考
人工智能头条
8+阅读 · 2017年7月12日
深度解读 | 为何众科技巨头都在抢滩语音识别技术?
Arxiv
6+阅读 · 2018年11月1日
Arxiv
14+阅读 · 2018年4月18日
Arxiv
7+阅读 · 2018年3月22日
Arxiv
4+阅读 · 2015年8月25日
VIP会员
相关资讯
微软小冰:全双工语音对话详解
AI100
7+阅读 · 2019年2月10日
“万人迷”小冰背后的AI故事
AI100
6+阅读 · 2019年1月13日
小冰,请接电话!
微软丹棱街5号
5+阅读 · 2018年4月18日
搜狗推出唇语识别技术 提升远场语音交互
智东西
3+阅读 · 2017年12月14日
一文读懂语音识别史
机械鸡
9+阅读 · 2017年10月16日
阿里智能对话交互实践及范式思考
人工智能头条
8+阅读 · 2017年7月12日
深度解读 | 为何众科技巨头都在抢滩语音识别技术?
相关论文
Arxiv
6+阅读 · 2018年11月1日
Arxiv
14+阅读 · 2018年4月18日
Arxiv
7+阅读 · 2018年3月22日
Arxiv
4+阅读 · 2015年8月25日
Top
微信扫码咨询专知VIP会员