对话 | 这家被收购的3人小团队 完成了百度“唤醒万物”的第一步

2017 年 8 月 4 日 智东西 寓杨

DuerOS的核心是唤醒万物,而人机交互的第一步则是唤醒词,可以说KITT.AI这个由3位高材生组成的明星团队完成了百度唤醒万物的第一步。

智东西  文 | 寓杨

7月5日,百度重磅发布了DuerOS语音交互平台、Apollo自动驾驶平台,成为百度AI的两大核心落地平台。而在这天,百度还宣布收购一家专注唤醒和自然语言处理的AI创企——KITT.AI,与其“唤醒万物”的使命不谋而合。

随着“All in AI”和“从连接信息到唤醒万物”,百度的市值在7月份一个月就涨了约120亿美元,截止到北京时间8月2日,百度总市值已达782.30亿美元,仿佛突破千亿大关已在不远处。从移动互联的服务和应用到AI时代的底层技术,百度也在实现自身的转变,而无疑这种转变是被市场和资本所看好的。

近期,智东西恰好与KITT.AI创始人姚旭晨相遇,并和他就语音技术与百度语音入口的布局展开对话。

一、度秘的新成员——KITT.AI

KITT.AI是一家来自美国西雅图的AI创业公司,主要专注于唤醒和自然语言理解技术。它目前有两款核心产品热词识别(hotword detector)和对话系统 ChatFlow。

热词识别是一款快速训练唤醒词的产品,开发者通过软件平台Snowboy为硬件设备添加唤醒词功能,如亚马逊Echo的“Alexa”,叮咚音箱的“叮咚叮咚”。对话系统 ChatFlow带有基于其自身NLP(Natural Language Processing,自然语言处理)技术打造的自然语言理解引擎NLU(Natural Language Understanding),是一款给开发者用来开发对话系统的工具,帮助开发者解决基于上下文的多轮对话问题。

(KITT.AI创始人团队及成员)

KITT.AI最初是作为艾伦人工智能研究所(AllenInstitute for Artificial Intelligence,简称AI2)的一个内部孵化项目于2014年9月诞生,但在2015年底才真正转做“热词”(即唤醒词)和对话引擎,相关产品也打磨了近一年半。目前,其热词技术可达到95%~98%的唤醒率。

它曾拿到了微软联合创始人Paul Allen和亚马逊Alexa等5家机构的投资,并入选了CB Insights人工智能创业一百强。令人吃惊的是,这样一个明星团队,到目前为止仍只有3名员工。

被百度收购后,KITT.AI保留原有品牌和产品,作为一个独立团队加入度秘事业部,并将继续在西雅图发展。

目前,KITT.AI的热词识别正在接入DuerOS,度秘下面的很多产品都会使用其热词技术。据姚旭晨透露,热词识别连同其对话系统ChatFlow(NLP技术)都将在今年内接入到DuerOS中,但具体收费情况还未确定。

二、唤醒万物先从“唤醒”说起

唤醒词是人与语音设备交互的第一步,能否顺利实现唤醒并减少误唤醒,对于用户体验而言十分重要。

还记得KITT.AI联合创始人兼CTO陈果果在今年百度AI开发者大会上的展示吗?即通过Snowboy平台快速训练一个唤醒词,这正是KITT.AI的热词识别,也是DuerOS平台赋能人机交互体验的关键一环。

(KITT.AI联合创始人兼CTO陈果果唤醒词训练展示)

具体来讲,热词识别的原理是:使用者念出的三遍唤醒词会形成3个音频文件传输到云端,这是一个端到端的深度学习分类器,它会对该文件进行音频建模,建立一个只针对这三个音频的分类器。它可以从能量、音调等方面提取参数进而构成特征,下次使用唤醒词时,这个分类器就会判断是否与这三个音频的特征相近,来决定是否唤醒。据姚旭晨介绍,KITT.AI的热词识别用到了几十万到上百万的特征提取。

唤醒设备很重要,但如何减少误唤醒同样重要。姚旭晨谈到,误唤醒的因素也很多,跟噪声、能量也有关。比如一些与唤醒词相似的音节,小鱼在家机器人曾用《小鱼儿与花无缺》这部电视剧进行测试,发现剧中很多“小鱼儿”的词语有时会带来误唤醒。

此外,他也谈到,毫无相关的一些声音有时也能够引发设备的误唤醒。原因在于机器并不像人一样有语境,它只能从众多特征参数中去判断,可能你的一个爆破音会导致分类器的每个权重都很大,进而造成误唤醒。

放眼当下火热的智能音箱,噪音环境下的唤醒和误唤醒仍然是各家亟待解决的问题。打磨好技术,做到高准确性、高容错,才能获得更好的用户体验。

三、自然语言处理进展到底如何?

KITT.AI的另一项核心技术正是NLP,应用到其产品对话系统ChatFlow中,从而帮助开发者开发对话系统,实现人机对话。而姚旭晨和首席科学家曹原则是美国约翰·霍普金斯大学CLSP实验室(Center for Language and Speech Processing)的博士,主攻方向就是NLP。

近期,关于智能音箱的“智商”问题一直被大家吐槽,而智商背后的关键就在于NLP。尽管BAT等互联网公司拥有海量的数据资源,能够将语音识别做到97%以上,但在NLP上进展却并不明显,各家的语音助手仍被吐槽。

(KITT.AI官网关于对话系统ChatFlow的介绍)

那么NLP在语音应用上到底进展如何呢?姚旭晨谈到,“凡事无法衡量的东西,都是难以改进的”,像语音识别和图像识别很容易measure(衡量),语音识别看看错别字就可以衡量识别率。但是自然语言不是,它是一种开放式的问题,你问它一句话,它可能有100种回答,所以你很难测量这个表现的结果。如果不能测量这个表现,则很难对其进行优化。

NLP是人工智能里最难的问题之一,在人机交互里,机器距离听懂人话还有很远的距离。以智能音箱中的多轮对话为例,目前通用语的多轮对话还难以实现,更多的是特定任务中的多轮对话能力,如打车、叫外卖、定电影票等。

目前NLP还没有太大的突破,它要像人一样会思考、会推理,还有很长的路要走。所以NLP在智能音箱、儿童玩具中做一个简单方便的小助手尚可,但其他的应用还难以做到。这另一方面也说明了,为什么当下的智能音箱大多是“one shot”(一次唤醒一次问答)模式。

四、从收购KITT.AI看百度的语音布局

DuerOS语音交互平台是百度“All in AI” 的重要一步,景鲲指出,DuerOS的核心理念是“唤醒万物”,而唤醒万物的三个基本要素是:听清、听懂、满足——可以理解为语音识别、语意理解、以及响应。

(图为度秘事业部总经理景鲲)

百度在语音识别和内容服务方面已有很多资源,此举收购KITT.AI,正是看中其在语音唤醒和自然语言处理上的优势,从而在“听懂”上更具优势,完善整个语音生态。

KITT.AI在被收购前就已经有近2万名免费开发者,还有来自四个大洲的许多付费客户,并且其公司在今年4、5月份已实现盈利。

在谈及选择百度的原因时,姚旭晨谈到,确实有许多公司想要收购KITT.AI,之所以选择百度,核心原因在于KITT本身的定位就在于平台,即成为一家成功的SaaS (Software as a Service,软件即服务)公司,而百度可以给他们提供一个更大的平台,更多的开发者。此外,百度对技术更加认可,并且也给予其团队很大的自由度,同意团队在西雅图独立发展。

百度需要唤醒和自然语言技术,来强化底层技术根基,而KITT.AI也需要更大的平台,二者可以说是一拍即合。

除了DuerOS和Apollo两大平台产品以及语音领域的KITT.AI外,今年百度还在2月份收购人工智能创企渡鸦科技,4月份收购硅谷专注于机器视觉的AI公司xPerception。在百度内部,搜索部门为AI提供知识库和文本的解决方案,地图团队为自动驾驶提供导航,百度云提供基础设施,百度医疗大脑提供人工智能诊断,可以说百度的“All in AI” 绝不是一句空话。

结语:语音——人机交互的未来

DuerOS的核心是唤醒万物,而人机交互的第一步则是唤醒词,可以说KITT.AI这个由3位高材生组成的明星团队完成了百度唤醒万物的第一步。

然而,姚旭晨也坦言,自然语言处理尚未实现突破性进展。如何让机器听懂人类、理解人类,仍会是我们很长一段时间内面临的难题。



延伸阅读

点击下方图片直接阅读


往期回顾

硬创先锋(2017)

共享经济

Hi电 | 云冲吧

人工智能&大数据

先声互联

康夫子 异构智能 医拍智能 彩云AI 神策数据

竹间智能 | 深鉴科技 | 钢铁侠科技 | 蓦然认知 | 达闼科技

VR/AR

RealMax | ObEN | 所思科技

汽车

Auto X 速腾聚创 Vector.ai | 智行者

WayRay 游侠汽车 | EZZY | 开云汽车

聚焦特写

共享经济

共享充电宝真相:惨不忍睹

共享电动车卷土重来

失控的共享单车

企业观察

李彦宏的24门客:离开百度,野蛮生长

出行教父李斌和他的隐秘帝国

智能快递柜为何陷入困境?

汽车智能后视镜的地下江湖

易到的生死危局

VR寒冬论言过其实

滴滴快车之死

百度大清洗

陆奇上任百度的51天 连烧六把火

微软亚洲研究院英雄谱



登录查看更多
4

相关内容

KITT.AI专注语音唤醒和自然语音交互技术,是世界上唯一一家获得亚马逊Alexa和微软联合创始人Paul Allen投资的公司,并入选了CB Insights人工智能创业一百强。
微软小冰:全双工语音对话详解
AI100
7+阅读 · 2019年2月10日
对话微软小冰武威:聊天机器人的演进之路
智东西
10+阅读 · 2018年12月10日
小冰,请接电话!
微软丹棱街5号
5+阅读 · 2018年4月18日
阿里智能对话交互实践及范式思考
人工智能头条
8+阅读 · 2017年7月12日
Arxiv
5+阅读 · 2018年10月4日
Arxiv
4+阅读 · 2018年5月10日
VIP会员
相关VIP内容
Top
微信扫码咨询专知VIP会员