AI新入口—智能语音系统全景分析及游戏探索

2017 年 7 月 20 日 腾讯研究院 VR新观察

腾讯互娱研发部游戏研究组  陈泽伟  林杰


全景分析篇


导语


短短的两个月时间,国内外智能语音助手设备市场风起云涌,平台之争一触即发。形成这一情形的原因,一方面是自然语义识别整体技术上有了新的突破,另一方面也由于目前世界范围内智能家庭设备的渗透率极低,市场几乎真空,海内外各大厂商争相进入这片蓝海,开始布局。


背景


1.    市场热度


 5月9日Amazon发布Echo Show。6月6日Apple发布HomePod。6月22日,腾讯发布小微智能服务系统并联合优必选和华硕等企业发布Qrobot智能机器人。7月4日,京东发布新一代智能音箱叮咚TOP。7月5日,上午百度发布搭载DuerOS的智能家居新品,下午阿里发布精灵X1智能音箱。


2.    产业数据


Strategy Analytics近期发布的研究报告《全球Wi-Fi音箱预测2014-2022》显示,全球基于Wi-Fi的无线音箱出货量在2016年增长62%达到1400万台,其中搭载智能语音系统的达到42%约590万台。Amazon在智能音箱这分类中,达到510万台,约占总数的87%,占据统治地位。紧随其后的是Google Home,出货量为50万台。预计到2022年,全球智能音箱产品出货量会增加十倍以上。

2016年全球wifi音箱出货量


3.    关键技术


自然语言处理

从2013年开始,基于深度学习(Deep Learning)的自然语言处理(NLP)模型的训练得到了广泛应用,在机器翻译,文档摘要,阅读理解,关系提取方面得到了重要进展。2017年阿法狗战胜柯洁更是将深度学习的热度推向新的高度。


麦克风拾音技术

从2016年开始,拾音技术,麦克风阵列技术,都获得了长足的进展。更清晰的拾音,帮助更好的语义处理,也能扩展用户应用场景,从封闭式环境(客厅,房间)到开放式环境(酒店,餐厅)。


4.    相关政策


现阶段国内外均没有相应的标准和规则。各智能语音助手开放平台处于生态圈初始建设阶段,形成完整生态圈还需要很长时间。


国内外产品简析


国外智能音箱及其智能语音助手平台


1.    Amazon Echo

Amazon Echo 


  • 设计

亲肤塑料材质的极简式圆柱体,高约莫20公分,宽10公分,顶上有一圈蓝色LED灯,突出科技感。


  • 智能语音助手平台

Alexa,最早的语音助手开放平台,目前有1万5千多的技能(Skill),与数十家著名硬件厂商合作。唤醒词,“Alexa”


  • 优势功能

可以方便的在Amazon上购物和控制智能家电。


  • 价格

Amazon Echo180 美元 Amazon Echo Dot 50 美元 Amazon Echo Show 230 美元


2.    Google Home

Google Home


  • 设计

如一个巨大的空气清新器的瓶子,色彩是粉色系且可定制,更能与现在的家装设计配合上。


  • 智能语音助手平台

Google Assistant,背靠整个Google AI和 Google Search组。在安卓手机上有多年的开放经验。唤醒词,“OK, Google”


  • 优势功能

在常规问题回答方面,Google Home的优势明显。而且首先实现声纹识别功能,使得多用户使用同一个Google Home成为现实。


  • 价格

130 美元


3.    AppleHomePod(尚未发售)

Apple HomePod

  • 设计

像一个大棉花软糖,摁下去感觉会弹起来那种,延续苹果一贯的极简设计风格,颜色有苹果白和极致黑。


  • 智能语音助手平台

AppleSiri,智能手机上第一个语音助手。唤醒词,“Hey Siri”


  • 优势功能

能与家中苹果系设备无缝相连。注重音质,搭载6个麦克风阵列,4英寸低音炮,底部配有7个扬声器阵列。


  • 价格

350 美元

 

国内智能语音助手平台


1.    腾讯云小微

腾讯的“AI即服务”产品,由微信AI团队发展而来。


  • 构成

硬件开放平台,Skill开放平台,服务机器人平台


  • AI能力

人脸识别,情绪识别,人体识别,实时翻译,图片识别,人机对话等


  • 优势

海量服务内容(视频,小说,新闻),腾讯社交关系链


2.    百度DuerOS

百度AI推出的“对话式人工智能系统”


  • 构成

百度DuerOS开放平台


  • AI能力

人脸识别,图像审核,知识图谱,结构化数据抽取,语音识别,翻译理解


  • 优势

海量业务场景,海量解决方案,先进的语义分析技术,大量合作家电企业


3.    京东叮咚


由京东和科大讯飞联合发布的智能音箱开放平台


4.    阿里精灵(尚未正式开放)


由阿里AI Lab研发推出的的智能语音交互系统


行业格局


海外 – 四足鼎立


 Amazon由于先发优势明显,拥有最多的合作伙伴,于2015年开放Alexa平台,拥有最多的服务支持;谷歌通过Google Home这一单品,和Google Assistant这个全球用户量最大的语音助手平台,拥有最庞大的用户数据,在个性化智能化上面高歌猛进;苹果通过发布HomePod和HomeKit这一生态圈开发系统,宣告苹果构建智能生态闭环正式加速;三星凭借全产业链的优势,快速给产品赋予智能,并逐步最广自家的Bixby智能语音助手。


国外前两年的市场竞争经历可以很好的给国内市场竞争者做为参考。


国内 – 硝烟四起


在家电智能化前期,仅仅局限于将产品接入互联网并可以用手机控制。这也是由于传统家电企业的短板所致。进入2017年,以腾讯、百度、阿里、京东为代表的互联网科技企业带着各自的AI技术正式加入这一市场。汉语语音交互技术的技术突破,使用户对智能家居的控制和使用更加方便。各传统家电厂商和互联网科技企业间的合纵连横将是未来一两年的主题。


趋势分析


1.    硬件 – 即将成为主流家庭电子类消费品


据VoiceLab预测,2017年全球智能语音设备出货量将会达到2450万台。在北美地区的家庭渗透率会达到20%,智能语音设备成为主流电子类消费品将在2020年前达成。

智能语音设备的保有量统计及预测


另据VoiceLab调查显示,只有11%的人会在购买一个品牌的智能语音设备之后再买另外一个品牌。这说明智能语音设备是智能家庭的核心产品,一旦用户围绕一个品牌打造智能家庭之后,忠诚度极高,改变的成本也会是极大的。因此,可以解释近半年有如此多的智能语音平台发布,如微软 Corona, 京东叮咚,科大讯飞开放平台,腾讯小微,百度DuerOS,阿里精灵等。


预计在2017年内,BATJ都会推出杀手级的硬件产品,让智能语音设备正式进入国内的家庭用户。


2.    软件 – 差异化,专业化是留住用户的本钱

   

智能语音设备的重中之重是软件,也就是背后支持语音交互的人工智能(AI)。


国外市场,经过两年的发展,在基础功能趋于同质化的情况下,差异化和专业化是各大平台需要突出的地方。

国内市场,尚处于起步阶段,目前还未有占绝对优势的平台出现。可以预测BATJ将会凭借用户数量优势抢占市场先机。

未来布局


载体 – 多元化


对于智能语音助手的载体选择,音箱是一个很好的切入口。


音箱几乎可以说是一个家庭家装时候的必备品,特别是现在无线互联的时代。据Futuresource的研究表明,2016年无线音箱的出货量达到6500万台,其中智能音箱只占到10%。因此,智能音箱发展空间巨大。


但是作为智能语音助手的载体,音箱不一定是唯一,可以看到腾讯推出的Qrobot这种智能机器人也可以成为载体,并且由于机器人的可移动性可拓展出在教育、培训、工业等方面的更多可能。


开放平台 – 打通大家电和产品内容的最后一公里


用户对智能产品的印象比较繁杂,而且一般偏向于小型设备,如灯泡,门禁等。而传统大家电除了电视以外,与智能能搭上边的很少。这是由于传统家电企业在智能化的技术储备上的不足导致的。BATJ的加入能很好的解决“产品智能化”这个环节。而开放平台能更好的打通内容与大家电的联系。让用户真正体验到一个语音交互入口控制家中主要电器设备的便利场景。


房地产商 – 智能家庭推波助澜


现在,越来越多的房地产商在设计项目的时候,将智能提升到一个战略性的方向,从而吸引高端人群的青睐。如万科、碧桂园、恒大等。正是在这些房地产商的推广下,房屋购买者对智能家庭的搭建有了一定意识。所以,与相关房地产商建立合作伙伴关系,对平台的推广,智能产品的销售会有相当的促进作用。


游戏探索篇


【卷首语】


智能音箱这一产品已推出三年之久,但却鲜有游戏玩法问世。这是因为智能音箱的设计师进入了“失去屏幕=无法游戏”的误区。


可是,在游戏规则中,屏显也只是一种交互方式,屏显能做到的,其他方式就一定不能做到吗?缺少屏幕的我们,虽然丢失了一种最常见的交互手段,却获得了从前在游戏规则设计中很少用到的智能语音。


在克服不利设计条件的同时,对新功能加以充分利用,我们就必能发现崭新的游戏乐趣,甚至消除屏幕交互方式带来的不足。


本文中便展示了这样一种可能性。


随着AppleHomePod的发布,AI语音交互技术,尤其是智能音箱产品,又一次受到了世人的关注。此前,据外媒报道,最早开辟这一领域的Amazon Echo系列产品的销量已突破千万,销售额更是高达9-10亿美元,俨然成为了Amazon引领世界智能消费潮流的现象级产品。腾讯X音箱也开始内测。

腾讯X音箱


众所周知,智能音箱没有除语音外的交互手段,仿佛是它的一大劣势,但智能语音的相关功能一旦得到有效运用,我们依旧能够在这一平台建立优秀的游戏玩法。


我们初步认为,有两种游戏形态(共四种玩法)比较适合智能音箱产品:


一、语音交互型游戏


在开始叙述之前,首先让我阐释一下语音交互游戏的基本运行过程。


大约五、六年前,部分概念借鉴自法国著名桌面游戏《只言片语(DIXIT)》[1]的《你画我猜》曾经在各大游戏平台风靡一时。这是一种基于绘图和文字输入交互的游戏形态,绘图者根据系统给出的谜底绘制图画,供猜谜者解答。 

《你画我猜》


《你画我猜》的游戏过程为文字(输出谜底)→绘图→文字(输入答案)→文字(反馈结果)。可以很清晰地看出,这套规则是依赖鼠标(数位板)绘图与基于键盘的文字输入进行交互的。其呈现方式,理所当然是电脑的屏幕显示。


如果将游戏过程改变为语音(输出/输入)→语音(输入/输出)→语音(反馈结果),我们会发现,这样的游戏过程在理论上是可以构成循环的,这意味着,我们完全可以据此建立各种新的玩法。


以下我将展示三种可能的,基于这一规则原理的游戏玩法:


1.    《你说我学》


这是一个由玩家模仿声音的游戏,有PVE和PVP两种模式。


由AI播放一段声音,可能是人声、动物声甚至无机物发出的声音,由玩家用语音或者其他手段加以模仿。系统收集玩家模仿的声音与原声进行比对,匹配度达到合格值即可过关。如是PVP模式,则由出题玩家发出声音,其他玩家加以模仿,匹配度高者胜。


该游戏可设定多种难度等级,匹配海量题库,并可支持多人对战[2]。


这样的游戏模式,与《你画我猜》有灵魂上的相似处,社交性强,节奏快,且不需要玩家掌握手绘等专业技能。一旦推出,极易流行。


2.    强化版《狼人杀》


将《狼人杀》或其他类似规则的杀人游戏移植至智能音箱中,是比较容易做到的。并且,使用智能音箱的杀人游戏,可以具备一个巨大的优势——无需人类玩家扮演法官

智能音箱版《狼人杀》可以省掉繁琐的卡牌,也无需人类法官


 以下是改进规则:


①    游戏全程由智能音箱扮演法官并进行管理。

②    玩家首先获取两个号码,一个身份代码(字母表示)和一个座位号码(数字表示)——身份代码由抽签决定,座位号码按照座次分配。

③    在分配身份时,由智能音箱念出每个身份代码所对应的身份。关键身份的玩家需按音箱上的按钮,告知音箱自己的座位号码。

④    在玩家需要进行指向性操作(如狼人指定杀害目标和警察验证身份)时,用按音箱上的按钮或击掌一定次数等方式,根据玩家座位号码进行指令输入。如需要反馈结果(在警察验证身份或场上有守卫者/医生时),智能音箱以闪烁不同颜色的灯光进行反馈。

⑤    决定投票结果时,根据玩家座位号码进行语音输入。


这套规则保证了《狼人杀》的乐趣,还可以替玩家节约一名宝贵的人类参与者名额。并且,借助智能音箱和语音交互,《狼人杀》的网络对战也可以实现[2]。这样的《狼人杀》,相信会有很大的市场。


3.    文字冒险类游戏


文字冒险类游戏是最古老的电子游戏类型之一。如1976年在PC上发布的,史上最早的冒险类游戏《冒险(Adventure,又名Colossal Cave Adventure)》,就是以纯文字界面呈现给玩家的。

《冒险》的游戏画面


在文字冒险游戏中玩家通过键盘输入命令来与游戏进行交互。游戏中有向东西南北等各种方向移动的叙述,也有拜师、屠龙等种种复杂的动作和场景,但都是借助文字描述,最终通过玩家的想象来完成的。

中国大陆最早的网络游戏《侠客行》游戏画面


中国台湾和大陆最早的网络游戏(分别是《东方故事2天朝帝国》和《侠客行》),也都是这样的文字MUD。这样的交互方式,非常有利于在智能音箱平台,以语音输出和输入的方式,进行完全移植。并且,移植所需的工作量也会比较小。


目前有声图书市场蓬勃发展,用户数不断增加,相信在有声图书的故事基础上,增加了游戏性的文字冒险类游戏,应该可以获得更多用户的青睐。


二、简单的传统卡牌桌游


玩家持牌量较小的简单卡牌游戏,如21点百家乐等扑克游戏,在理论上具备移植到智能音箱平台的可能性——玩家的手牌展示和出牌操作,均由语音交互完成。在智能音箱平台,此类游戏可以实现人机对战和互联网对战。


这样的移植版虽然游戏体验可能不如卡牌和屏显版,但胜在移植开发比较简单,可作为智能音箱系统中的标配组件而存在(类似windows预装的《扫雷》等)。


此外,我们还可以尝试音乐节奏游戏和其他语言交互类桌游。

《节奏天国》一类的节奏游戏,也有移植到智能音箱平台的可能


目前,智能音箱这一领域还没有成形的游戏产品,首先进入的厂商将获得一定的先发优势。另外,该领域游戏的开发成本较低,且不需要投入任何美术资源,具有小成本大回报的可能。



[1]该作品曾获2009年法国年度游戏大奖和2010年德国年度游戏大奖——德国年度游戏(Spiel des Jahres)是桌游领域的最权威奖项。游戏的规则是:讲述者根据卡牌上图画的猜谜者根据描述打出迷惑牌与讲述者的卡牌放在一起,再从所有卡牌中选出最符合的牌。

[2]理论上可支持的对战人数为无穷大。


来源:VR新观察


登录查看更多
1

相关内容

【实用书】Python技术手册,第三版767页pdf
专知会员服务
229+阅读 · 2020年5月21日
德勤:2020技术趋势报告,120页pdf
专知会员服务
187+阅读 · 2020年3月31日
【德勤】中国人工智能产业白皮书,68页pdf
专知会员服务
295+阅读 · 2019年12月23日
【阿里巴巴】 AI编译器,AI Compiler @ Alibaba,21页ppt
专知会员服务
43+阅读 · 2019年12月22日
【LinkedIn报告】深度自然语言处理的搜索系统,211页pdf
专知会员服务
105+阅读 · 2019年6月21日
“马踏飞”AI机器人实现方案介绍
PaperWeekly
5+阅读 · 2019年8月31日
搜狗推出唇语识别技术 提升远场语音交互
智东西
3+阅读 · 2017年12月14日
智能语音成“AI四大项目” 千亿市场待开发
IT时报
3+阅读 · 2017年11月26日
Neural Response Generation with Meta-Words
Arxiv
6+阅读 · 2019年6月14日
Arxiv
8+阅读 · 2019年2月15日
ViZDoom Competitions: Playing Doom from Pixels
Arxiv
5+阅读 · 2018年9月10日
Neural Architecture Optimization
Arxiv
8+阅读 · 2018年9月5日
VIP会员
相关论文
Top
微信扫码咨询专知VIP会员