看创业公司CEO的微信朋友圈往往是一件有趣的事情,不时有鸡汤,不时有抱怨和自嘲,剩下的还有做宣传。人工智能公司云知声的CEO黄伟就是这样的典型代表,用零碎的感受真实的反映了创业一路的体验,尽管他还时不时发出感慨“作为CEO,最大的缺点是不会装,需要突破。”
像机器人圈这样的记者在围观时确实很过瘾
和互联网、移动互联网的时代不一样,AI门槛比较高,技术发展和数据需要长期积累,才能由量变到质变。从行业细分来看,云知声的市场份额仅次于“校友”——上市公司科大讯飞,但作为中国科技大学创业军的师弟,黄伟是如何在五年时间内加速成长,早于师兄们推出Pandora语音中控完整技术方案。
如同陆奇在百度喊出口号:开发者成功,百度就成功。黄伟和云知声也将这五年的技术积累,交付给了行业和合作伙伴,智能解决方案可帮助合作伙伴实现6个月快速集成、量产出货,各种类似Amazon Echo的智能化产品将落地加速。在采访、研究和长期的跟踪中,机器人圈总结出四点优势:
优势一:技术实力派的标签
云知声是一个团队在战斗,黄伟曾经说,“股东之间、同事之间、兄弟之间,唯有信任不可动摇。”创业,志同道合者才能在一起。从云知声的核心团队来看,算是技术男的同盟。其中,黄伟毕业于中国科技大学,博士主攻方向就是当年冷门的“神经网络”,不过还算幸运的是他毕业后进入了摩托罗拉,能找到和他研究方向匹配的工作,在那里他带队开发出世界上首个手机声纹认证系统,并完成多项语音交互产品研发。但在金融危机期间,摩托将整个语音识别团队出售给Nuance。从语音巨头Nuance离开的黄伟,于2009年7月加入盛大网络旗下的创新院,当年的盛大创新院可谓是个传奇,牛人聚集,包括云知声的CTO梁家恩。
“我在中科院呆了10 年,其中读书工作各5年,技术研究很透彻。后来去盛大研究院呆了1年,对我影响很大。”梁家恩说,这里他懂得了用户体验,互联网的精神,还接触了资本市场,大开眼界。“很多技术不好甚至没有技术的,都玩得风生水起,我自信那里技术没有比我高的。”于是,2012年6月由他牵头成立了云知声信息技术公司,专注于语音市场。
技术牛是云知声的标签,如何证明呢?首先是搜狗找到他们,搜狗语音助手当时面临科大讯飞和云知声两个选择,二者性能不相上下,但是云知声在处理器的速度上更快,而且更灵活、高效,小团队执行力很强,2012年11月云知声正式与搜狗语音助手合作,为其提供语音识别服务。
还有2013年在老罗做锤子手机的时候也想加入语音控制,梁家恩便拿着方案去锤子公司了。随后便有了锤子发布会上云知声的亮相,由于老罗关注度很高,那次发布会让云知声名气涨了不少。
一步一步,语音领域的黑马崛起了。直到2017年6月,云知声成立的五周年之际,拿出了Pandora。
智能中控和音箱类产品是个“硬骨头”,从产品概念的提出到最终量产出货,中间涉及语音识别、语音唤醒、语义理解、用户画像、声学等综合技术,同时,声学、结构、麦克风阵列等因素又互相关联互相影响。复杂的AI技术元素和环节让大部分智能中控的产品化之路步履维艰,但是云知声做到了,而且还有志于帮其他企业实现。
优势二:一颗“芯”的初衷
Pandora是什么?智能中控解决方案,关于支撑“Pandora”的核心AI技术,黄伟试图通过描述各种情况下的交互过程予以解释:用户唤醒词话音刚落,设备就能快速给出应答,反应速度<0.3秒;哪怕用户有口音、或者在5到10米的地方远距离发出指令,设备依然能够准确识别并回复;当用户处在嘈杂的环境,并且在长时间没有交互的情况下,设备离线低功耗的特性可节省用电量,并以趋于零的低误唤醒率保持稳定状态;当然,用户也可以与设备保持多轮对话,并在交互中随时打断,设备都可以灵活应对,实现行云流水般顺畅的流式交互。
当设备实现了自由感知后,不仅能进行自然语言交互,还能实现知性会话:有知识、能决策、可自学习;随着与用户交互的持续深入,设备还能通过声音定位用户属性,绘制用户画像,针对不同用户需求提供个性化服务;从而根据用户画像,利用多音色高音质语音合成技术,为用户推荐喜欢的合成声音。
从产品形态上来说,智能音箱或许只是过渡产品,但是用自然语言唤醒的智能解决方案还能以机器人及车载、家居中控等各种百变身份,最终成为日常生活中的智能管家、娱乐玩伴和生活助理。
从解决方案本身来说,仍然是云知声一贯的“云端芯”战略。和其他同行不一样,云知声一直有着“芯”的情节,2015年云知声正式推出了AI芯,当年云知声自主研发的“AI芯”就在汽车导航的后装市场已经达到了60%的份额。而且AI芯受到了智能家电领域的热捧。
为什么是“AI芯”,而不是APP或者其他?黄伟认为,“未来所有智能都是从芯片端发起的,而且芯一定是和云连接在一起的。”声音的智能进化使得用户可以通过语音交互更智能的操控终端设备,而终端设备的智能进化让云知声通过语音云大数据看见声音背后的价值。
优势三:车载、医疗等场景各个击破
单机智能绝不是黄伟和云知声的终极目标,云知声将凭借深厚的技术积累以及在医疗、教育等专业垂直领域丰富的实践经验,在未来逐渐将更多专业的服务引入“Pandora”方案,使得基于“Pandora”的产品不仅可以是生活助理,也可以是家庭医生、法律专家、家庭教师。
垂直领域的场景,对云知声一直不是难题,它既是白色家电领域唯一规模量产的芯片供应商,也是国内首家医疗云服务供应商;在中国后装车载市场语音方案占有率达到60%、语音公有云日调用量2亿次、教育云社会化口语测评服务市场占有率稳居第一……
以上这些场景,没有一个是可以不费力气就拿下的。以医疗为例,一直以来,病历备案、影像数据及医疗报告等信息录入都是医生的重要工作职责。据国内某著名三甲医院影像科数据显示,影像科40个大夫每天共处理超过1000份报告,平均每人每天录入大约30份报告,需要耗用3小时,录入报告的时间相当于一个医生每天38%的工作时间。如何将医生从繁琐的信息录入工作中解放出来,成为亟需解决的问题。
今年5月,云知声面向医学影像领域提供了专科化智能语音方案,由三部分组成:医疗语音识别引擎、语音录入终端及医疗专业设备,为各大医院主管领导及医学影像专家献上良策。
拿出这个方案之前,云知声已经与协和医院、北京大学人民医院、青岛大学附属医院以及浙江省台州医院等三十多家国内知名三甲医院达成合作,经实地调研,云知声从收集到的上千份调查问卷中分析得出数据:约90%以上医生认为语音识别准确率超过95%,达到可用水平;约48%医生认为语音录入系统每天可节省1小时以上时间;约47%医生希望立即使用语音录入系统。
优势四:快速做出来才是王道
天下武功,唯快不破。如果说云知声有什么独家秘笈,那么第一条便是:快。
做产品快:
语音识别、语义技术本是一个长期的工程,但对在该行业研究了10 年的技术专家们来说,却是 “会者不难”,2012年成立后不久,“云知声”语音识别公有云就发布了,成为国内继“科大讯飞”之后第二家语音云。
而被搜狗“相中”的另一大原因就是快,云知声从与搜狗首次接触到达成合作最终发布产品只花了两周时间。老罗做锤子手机时最初找的是科大讯飞,但找了 2 个月对方没拿出任何东西,于是老罗发了一条抱怨的微博,有人把这条微博 @梁家恩,梁家恩便在老罗微博里评论“云知声力挺老罗”,结果当天晚上,云知声的 CTO 便拿着方案去锤子公司了。
融资快:
2012年,人工智能还远远没有今天的普及程度,不只是普通大众,连投资人对于AI还知之甚少。但是云知声在拿到千万元级别的天使投资之前,只做了3个月。时间进入到2013年4月初云知声开始正式接触各路投资人,敲定亿元A轮融资仅花了三个月时间,10月,云知声正式对外确认完成启明创投的A轮融资,金额达1亿人民币。当然,创立不到500天就能快速打动投资人融到1亿人民币,与技术、方向两个关键词有直接关系,“投资人的逻辑很简单,时机、趋势、团队,这三点我们都符合。”梁家恩曾总结。
自然交互,是机器时代起点,云知声显然踩准了这个点,而且在这条路上快速前进。2017年,被认为是对话式人工智能的元年,人类开始与机器自然共处,我们可以很欣慰在这个重要的转折点上,有类似云知声这样的中国企业不属于国外巨头,发出了自己的声音。我们一同盼望机器时代的到来,感受从声音出发带给我们的种种惊喜。
欢迎加入
中国人工智能产业创新联盟在京成立 近200家成员单位共推AI发展
关注“机器人圈”后不要忘记置顶哟
我们还在搜狐新闻、机器人圈官网、腾讯新闻、网易新闻、一点资讯、天天快报、今日头条、QQ公众号…
↓↓↓点击阅读原文查看中国人工智能产业创新联盟手册