小米王川:“小爱同学”背后做AI爆款的方法论

2017 年 12 月 28 日 黑智 方浩

⁕本文由接招(itakethat)授权转载

文丨方浩


人工智能可能是2017年中国互联网讨论最多的一个关键词,但如何落地、找到真实且刚需的用户场景,一直是令业界最为头疼的问题。


过去几个月,小米有两款人工智能产品成为市面上的爆品。在整个电视行业陷入低迷的2017年,小米一跃成为线上销量第一的电视品牌,最大的贡献来自其主打人工智能语音的系列——小米电视4A。小米AI音箱更是成为国内卖的最多、也是最难买的一款智能音箱。而这两款产品的爆红,并不像外界想象的那样,是赶上了AI的风口;恰恰相反,它们其实是跟随用户需求不断进化而来的「网红」。


最近我和小米联合创始人、小米电视负责人王川聊聊了小米AI音箱的前世今生,以及小米连续制造爆款的最大秘密武器……


为了保证原汁原味地呈现干货,接招以川总口述的形式加以整理、编辑,Enjoy:


雷军最烦「布局」二字


「小爱同学」可以说是目前中国市场上使用体验最好的智能音箱。微软、亚马逊和Google的相关负责人看了以后第一个反应就是,怎么这么快?


其实我们在很多方面已经不落后于国际的一线巨头了,主要原因是我们有大量的用户在用。小爱同学最早是在小米电视上实现的。当时为了解决电视语音的交互问题。因为电视跟手机不一样,电视搜索一直是最困扰我们的问题。


在电视上,我今天看到的最好的交互工具就是遥控器,还没有看到更好的交互工具。但是在电视上输入一个文字是非常非常吃力的事儿。但有了语音以后,搜索问题就变成一句话的事儿了。我们最早在电视上做了语音助手,后来命名为「小爱同学」,再有现在的小爱音箱。可以说是环环相扣,但不存在布局一说。


在小米,雷军最忌讳的就是「布局」二字,我们内部没有人谈布局、没人敢谈布局。总有人问我小米是怎么布局的,我说我们从来没布局,在我们这儿布局是贬义词。


我们想的就是怎么做出一款能「感动人心、价格厚道」的好产品。如果你能做出这样的产品,这就是衡量你成功不成功的标志。所以我们其实看的都是产品,比如怎么把电视做好、怎么把它的交互做好、怎么把它的画质做好、怎么把它的音质做好、怎么把它的外观做漂亮。


小爱音箱其实也是产品需求的进化。我们这个团队是做电视的,一直在研究电视的交互。去年10月我们在小米电视上尝试了智能语音,在电视搜索上内置了小爱同学这个智能语音功能。两个月之后决定把这个功能升级为互联网音箱,音质特别特别好,上面带了一个按键,带语音,当时卖399,一下子卖得特别好。但那个是近场语音,远场的一定更受欢迎。我们就把这个功能强化,推出了小爱音箱。


需求的进化:从遥控器到智能音箱


大家今天看到的是小爱音箱这个爆款,但没有看到它是怎么一步步进化而来的。可以说,小米音箱的诞生,离不开我们最初的遥控器。小米电视最早做了11键遥控器,这是全球键数最少的遥控器。在此之前,所有的遥控器都是40多个按键,甚至100多个按键。


小米当时面临的挑战是,智能电视的功能要远比功能机多很多。按照常规,我们可能要加更多的按键才能控制智能电视这么多的功能。但是说实话,40多个按键已经很难用了,如果再加几百个按键基本上就不能用了。


当时决定做智能电视的时候,我问了一下传统厂家:你们智能电视机的日活有多少?他们说先别说日活了,说联网率,虽然智能电视卖出去了,但是真正连到互联网的有多少?不到50%,联网以后使用智能功能的有多少?他说不到5%。使用率极低,大家卖智能电视是把它当成一个噱头来卖的。


后来我们开始当时设计这个遥控器,我对自己提了几个要求:第一、我们能不能设计一个拥有世界上最少按键的遥控器、但是它能够覆盖功能机和智能机的全部功能;第二、这个遥控器应该是4岁孩子到80岁老太太都能用;第三、不用看遥控器,可以盲操作。大家平时在家里看电视的时候灯光很昏暗,如果还需要看着遥控器去找按键,就很痛苦。所以我要求是凭手感、凭直觉,完全不用看。这是我们设计11键遥控器的初衷,这是当时世界上按键最少的电视遥控器。


做小米盒子就是为了做电视,所以设计小米盒子遥控器就是为了电视遥控器设计的。小米盒子出来以后才使得智能电视的使用成为可能。


以前为什么买回去智能电视,其中50%的人不联网?联网的人里面只有5%的人才会用智能电视功能?是因为根本没法用,使用起来很痛苦。在Windows之前,我们为了使用Dos,要上了一个月的课,就是你要先学一个月的课,然后才能使用Dos。Windows出来后,让大家玩两下就会上网。


有了这个遥控器,我一直觉得在智能电视的海量内容下,操作应该会很简单了,但很快发现搜索一直是个问题。所以我们第一个在电视里头做了「小爱同学」这个智能语音功能。因为我们发现一句话能解决的事儿,都特别适合语音来解决。





小米做AI的先天优势:数据


智能语音不是今天才有的,上个世纪我上大学的时候就有了,二十年来,一直没有真正的使用。语音搜索一开始并不是百分之百准确,甚至很不靠谱。到今天,我们才突然发现它的准确率越来越高了,一个重要原因就是人工智能提升了它的准确率。当准确率达到一定程度的时候,用户才可以接受。


我觉得这就像有一个无形的门槛:在门槛下,大家就不会用,过了门槛,大家都开始能接受了。所以,怎么使我这个语音的准确率达到用户的使用门槛,我觉得是巨大的挑战。


核心问题就是要有足够多的数据。用的人越多,数据量越大,准确率就会越高。从小爱同学到小米音箱,之所以能够持续爆款,就是因为小米有很大的用户量。


「小爱同学」刚出来时,我说咱们做一块钱公测,看看大家到底用不用,结果网上100多万人报名,超出我想象。后来我说,再设计个门槛:家里至少有15个小爱同学能控制的家居设备(不是15件小米产品)的用户才有资格参与。结果这100多万人里有20多万人符合。


公测以后,有用户反馈说小爱同学控制不了家里的设备,我说怎么可能?就让工程师去查,后来发现我们工程师限制了智能设备的连接数量,上限是200件。我说家里有200件?这不可能的啊。结果很多人说我们家里设备就是超过200件。


小爱音箱是今年7月份发布的,意图准确度从当时的不到80%提升到了98%;真正销售应该是从9月底开始,到现在已经有一亿的数据了。就是因为小米有海量的数据,所以使它在不停地学习,越用越好用。


当时做小爱音箱,其实心里也没底。这个产品到底能不能被用户接受,说实话,我们心里是打鼓的。从我个人来讲,我认为肯定能卖,而且这个价钱也肯定能卖。但是到底能不能卖,得看实际情况,不能说我觉得好,它就能卖。创业这么多年,在产品上我们有过很多血泪教训,我觉得特好的可能最后卖不动,我觉得不起眼的可能也卖得挺好。据说培养一个飞行员需要黄金等身,我觉得培养一个产品经理可能需要花更多的钱、交更多的学费。


一开始我们只开了一套模具,一套模具是四万台的产量。为什么只开一套模具呢?因为我了解到市场上已有的同类产品,过去两年时间才卖了四万台。一套模具一年大概是50万台的量,人家是两年才干四万台,一年才两万台,所以我觉得一套肯定够。


很快,在公测之前我就觉得一套不够了,我专门给厂商打电话,我说再加开两套。没想到的是,一上市,我又加开了四次模具。


风口就是用户需求


这都是根据需求一步一步向前推进的,而不是布局、规划出来的。如果在电视上推了以后没人用,我们就不会在音箱上去试了。我们最怕什么呢?最怕的不是技术先进不先进,而是是用户不用。如果小爱两年只卖四万台,有什么用?你说我们的算法很好、科学家很好,语音都是世界最领先的,用户没用,就没有数据。产品经理就是要洞察用户的需求,然后推动产品按照用户的需求方向去走。我觉得这才是产品经理的责任。


雷总经常说风口,但风口是什么?我觉得这个风口就是用户需求。用户需求并不会随着时间发生急剧的变化,实际上只是满足用户需求的解决方案在变。为什么解决方案会发生大规模变化呢?这就是技术带来的。产品经理就是要追求解决方案的最优解。当时小米做遥控器,我们追求的就是最优解。


最优解有时间性。今天是一个最优解,可能明天就不是了。不是最优解发生了变化,而是技术发生了变化。比如小米遥控器原来的最优解是11键,现在变成了12键,多了一个语音键,是因为今天语音技术成熟了。今天的最优解不是昨天的最优解,但是只有技术的变化才有可能产生新的最优解。时机很重要。


我说的时机是什么呢?这个技术成熟到产生了新的最优解,原来的最优解变成了次优解。在这个时间点,你应该推出产品,早了它还是不是最优解,晚了就不是你推出的最优解了。


我记得很早以前IBM、索尼的产品都用指纹技术,我也专门为这个买了笔记本,但是再也没用过,那时的指纹功能根本不好用。但直到今天苹果在手机上用了指纹以后,大家才算离不开指纹了。


语音识别其实有一个用户体验的门槛。在这个门槛之下,大家就不会用,超过这个门槛他就会用。产品经理要把握这个门槛在哪,今天的技术到没到这个程度,苹果不会是现在有了指纹技术,就采用它,苹果一定是把握到了这个指纹已经达到了用户可接受的程度,才会在产品中采用。


雷总在做小米之前,大概是2009年10月份,他跟我讲,2010年我们一定要创业,一定要干,2010年不干,肯定来不及了,之前干又早了。他研究过,所有互联网的大公司都是1998年进入互联网或者转型互联网的。腾讯、阿里、百度、搜狐、网易,很奇怪都是1998年干的,或者1998年转型的。从三大门户到BAT,全是1998年那一年。


智能音箱这个事我觉得今年必须干,今年不干就很难了,今年就是风口,就是这个时机。我是从去年下半年才感受到,先推动在电视上弄。电视上一证明行,我就意识到今年必须干了,今年不成就来不及了,明年可能就做不大了。



黑智专访


驭势科技 吴甘沙  搜狗 王小川

云知声 黄伟  格灵深瞳 赵勇

出门问问 李志飞 Roboteam Yossi Wolf

小鱼在家 宋晨枫  奇点机智 林德康

Rokid  Misa  瑞为智能 詹东晖

极限元智能科技 雷臻  乂学教育 栗浩洋 

 暴风科技 冯鑫 销售易 史彦泽

普强信息 何国涛 真机智能 刘智勇

纳人 姜海峰   众趣科技 高翔

拍拍赚科技 汤劲武  图森未来 陈默

智齿客服 徐懿  深之蓝 魏建仓

扩博智能 严治庆 视见医疗 王峰

  甘来 曹文斌  ROBOO 刘颖博

银河水滴 黄永祯 


投资人说


云启资本 黄榆镔  松禾远望资本 程浩

英诺天使基金 李竹   线性资本 王淮

九合创投 王啸    纪源资本 肖鸿达

戈壁创投 徐晨 百度风投 刘维




登录查看更多
4

相关内容

不同于传统电视(包括普通的可点播的 IPTV),智能电视能够从网络、电脑、平板电脑、手机等多种渠道获取内容。
  • Amazon Fire TV
  • Apple TV
  • Roku
  • Google Chromecast
  • 乐视超级电视
  • 小米盒子
  • 快播大屏幕
  • 阿里·华数盒子
  • Showkey秀可视
  • ······
打怪升级!2020机器学习工程师技术路线图
专知会员服务
98+阅读 · 2020年6月3日
自回归模型:PixelCNN
专知会员服务
26+阅读 · 2020年3月21日
【阿里巴巴】 AI编译器,AI Compiler @ Alibaba,21页ppt
专知会员服务
44+阅读 · 2019年12月22日
人工智能学习笔记,247页pdf
专知会员服务
182+阅读 · 2019年12月14日
【机器学习课程】Google机器学习速成课程
专知会员服务
164+阅读 · 2019年12月2日
可解释推荐:综述与新视角
专知会员服务
111+阅读 · 2019年10月13日
商汤新青年访谈录丨AR爆款应用背后的故事
商汤科技
11+阅读 · 2019年3月14日
微软小冰:全双工语音对话详解
AI100
7+阅读 · 2019年2月10日
过了尬吹的年代,人工智能都落地了些什么?
互联网er的早读课
8+阅读 · 2018年11月5日
人工智能少女的四年蛰伏
乌镇智库
3+阅读 · 2018年8月27日
小冰,请接电话!
微软丹棱街5号
5+阅读 · 2018年4月18日
百度的广告和今日头条的广告
keso怎么看
8+阅读 · 2018年2月9日
抖音的 2017 和它背后的黑科技
PingWest品玩
8+阅读 · 2018年1月4日
为什么不能和阿里巴巴好好说话呢?
创业邦杂志
3+阅读 · 2017年7月3日
Arxiv
9+阅读 · 2020年2月15日
Tutorial on NLP-Inspired Network Embedding
Arxiv
7+阅读 · 2019年10月16日
AutoML: A Survey of the State-of-the-Art
Arxiv
69+阅读 · 2019年8月14日
Conditional BERT Contextual Augmentation
Arxiv
8+阅读 · 2018年12月17日
VIP会员
相关资讯
商汤新青年访谈录丨AR爆款应用背后的故事
商汤科技
11+阅读 · 2019年3月14日
微软小冰:全双工语音对话详解
AI100
7+阅读 · 2019年2月10日
过了尬吹的年代,人工智能都落地了些什么?
互联网er的早读课
8+阅读 · 2018年11月5日
人工智能少女的四年蛰伏
乌镇智库
3+阅读 · 2018年8月27日
小冰,请接电话!
微软丹棱街5号
5+阅读 · 2018年4月18日
百度的广告和今日头条的广告
keso怎么看
8+阅读 · 2018年2月9日
抖音的 2017 和它背后的黑科技
PingWest品玩
8+阅读 · 2018年1月4日
为什么不能和阿里巴巴好好说话呢?
创业邦杂志
3+阅读 · 2017年7月3日
Top
微信扫码咨询专知VIP会员