阿里人工智能产品加速落地,语音+视觉交互瞄准家庭智联网

2018 年 3 月 24 日 专知


 

阿里人工智能产品加速落地

语音+视觉交互瞄准家庭智联网


这两年,要论最火的科技名词,人工智能必然是其中之一。阿法狗战胜人类棋手,无人驾驶汽车陆续上路测试,无不都是人工智能的代表。“在别的公司都在讨论如何利用人工智能时,我们已经做出了真正的人工智能的系统;当别的公司开始谈论做系统时,我们已经做出了真正的人工智能产品—天猫魔盒并且上市销售”,在3月22日在京举办的阿里巴巴人工智能实验室2018年春季发布会上,阿里巴巴人工智能实验室负责人浅雪对《中国科学报》记者表示,中国的人工智能产品的市场接受程度远比美国要高,在全球市场,最畅销的智能音箱亚马逊ECHO达到这一数字,用了一年多的时间,而天猫精灵只用了200多天时间。


发布会现场,阿里推出了全新升级的中文版人机交互系统AliGenie 2.0,以及天猫精灵曲奇版、智能投影天猫魔屏S1和天猫路由器等多款新产品。“作为阿里巴巴智联网战略的一部分,阿里巴巴人工智能实验室未来将语音交互、视觉交互、机器行动力等结合在一起,推动家庭智联网的落地”,浅雪说。


对于今天的中国消费者而言,缺少的从来不是敢于尝新的勇气,而是有真正智能化的爆款产品。数据统计,截止到今年3月中旬,天猫精灵累计销量达200万台,持续领跑中国智能音箱市场。 “去年天猫精灵双11百万销量证明了中国智能音箱不是伪命题。200万台销量,证明了中国智能音箱市场比美国更大、发展速度更快。这就是中国人工智能的加速度。”浅雪这样表示。


在成绩的背后,阿里巴巴人工实验室考虑的首先是如何让产品变得更加智能。基于这样的考虑,他们升级了第一代中文人机交互系统AliGenie,将至打造为AliGenie 2.0。这两代系统的最大区别,在于1.0版注重于“听”和“说”交互——即机器能够听懂人类的语言并做出回答,而2.0版为机器引入了视觉能力,将之升级为“听”“说”“看”的交互。也就是说,装有这种系统的人工智能产品能够各种图形图像——AliGenie 2.0的视觉能力包括图像识别、人脸识别、物体检测。


浅雪介绍,AliGenie 2.0引入多模态交互能力,通过对语音、图像、触摸等多种交互形态的融合,让机器和人的交流,更像是人与人之间的交流。同时,AliGenie2.0还具备情景感知能力,基于你所在的上下文、对话场景自主学习,深刻理解情景需求。未来,AliGenie将不仅能识别“命令”,还能理解你的“情感”,并且进行情感反馈。这就是说,人工智能产品具有自己不断进化的能力。


“AliGenie 2.0系统,就是为下一代人机交互而诞生的。最开始,我们用键盘和dos系统和电脑进行交互,后来人机交互的工具升级为键盘加鼠标,再后来苹果手机的诞生实现了触屏的方式进行人机交互,在AI时代,我们将会用嘴、眼睛、耳朵配合各种硬件设备进行语音交互”,浅雪说。


有鉴于此,阿里巴巴为天猫精灵X1搭载了AliGenie 2.0系统。然而,天猫精灵并没有推出一款“带屏幕的音箱”,而是推出了“精灵火眼”功能:通过现场发布的XHolder外设,及天猫精灵手机APP“精灵火眼”功能,所有天猫精灵X1用户都能连接自己的手机,为天猫精灵加装一块屏幕。同时,天猫精灵还能调用手机摄像头,具备视觉认知能力。


“我们希望通过精灵火眼,以普惠的方式让大家在不增加硬件成本的前提下,体验到视觉的魅力”,浅雪表示,智能音箱终极形态是家庭机器人,从“听”“说”,到“视觉交互”,再到“行动力”,阿里巴巴希望通过引入视觉能力加速这种进化。


据介绍,“精灵火眼”初期上线了读书、识别药盒等功能,未来将具备万物识别、人脸识别等功能。面向儿童使用场景,“精灵火眼”与国内顶尖的出版社合作,精选了适合3岁到8岁儿童的117套图书,如《小猪佩奇》等热门IP。很明显,通过加装外设,天猫精灵进一步瞄准了儿童市场。在发布会现场,来自国内多家儿童读书的出版社负责人也应约出席,为出版社与阿里巴巴人工智能实验室的合作站台。


面向老年人使用场景,“精灵火眼”推出识别药盒的功能,能识别4万种药盒,只要扫一扫药盒,就能用语音播报药名、功效、过期日等信息。这意味着,和普通的智能音箱不同,天猫魔盒还具备了视觉交互的能力。


在《中国科学报》记者现场体验时,这款加装了外置屏幕的天猫精灵的视觉识别能力非常强悍,不管是把书本还是水果,只要放在摄像头的前面,天猫精灵在五秒内就能分辨出来并用语音和屏幕显示的两种形式把结果告诉用户。根据工程师释空的介绍,为了优化这种机器视觉能力,阿里的几十名工程师加班加点8个多月,才最终搞定这一切,“比如,在扫描药品时,我们不是通过扫描药品的二维码来识别,而是直接让进行进行产品的外观识别来实现,这对产品的智能化程度要求是非常高的”。


在浅雪看来,在万物互联的时代,人工智能必然会发挥更加重要的作用。智能家居市场,无疑是一个值得企业重金投入、前景广阔的市场。天猫魔盒具备的语音交互、视觉交互能力,无疑可以在智能家居的使用过程中发挥更大的作用。


比如,在传统客厅场景,电视是核心。这次发布的天猫魔屏S1能把一面白墙变成一个电影院,并与天猫精灵连接实现语音交互。“打通视觉、语音,能够让天猫精灵能更全面、智能的感知外面的世界,进而更好地理解用户需求,并且付诸于行动”,浅雪介绍,阿里巴巴人工智能实验室是集团专注于消费级人工智能产品的研发机构,其使命是探索创新的人机交互方式,天猫精灵只是一个开端,“在推出这款产品的时候我们说过,我们选择自己做硬件是为了把产业链完整的走一遍,才能知道真正的市场需求。最终我们希望将AliGenie 这套人机交互系统开放出去,让更多的企业和开发者能够参与进来”。(彭科峰)


转载自科学网

http://news.sciencenet.cn/htmlnews/2018/3/406712.shtm

-END-

专 · 知

人工智能领域主题知识资料查看获取【专知荟萃】人工智能领域26个主题知识资料全集(入门/进阶/论文/综述/视频/专家等)

同时欢迎各位用户进行专知投稿,详情请点击

诚邀】专知诚挚邀请各位专业者加入AI创作者计划了解使用专知!

请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料

请扫一扫如下二维码关注我们的公众号,获取人工智能的专业知识!

请加专知小助手微信(Rancho_Fang),加入专知主题人工智能群交流加入专知主题群(请备注主题类型:AI、NLP、CV、 KG等)交流~

点击“阅读原文”,使用专知!

登录查看更多
0

相关内容

阿里巴巴集团旗下B2C平台。天猫由淘宝网打造,整合数千家品牌商、生产商,为商家和消费者之间提供一站式解决方案。 天猫 tmall.com
人机对抗智能技术
专知会员服务
201+阅读 · 2020年5月3日
新时期我国信息技术产业的发展
专知会员服务
69+阅读 · 2020年1月18日
【德勤】中国人工智能产业白皮书,68页pdf
专知会员服务
300+阅读 · 2019年12月23日
2019中国硬科技发展白皮书 193页
专知会员服务
81+阅读 · 2019年12月13日
2019年人工智能行业现状与发展趋势报告,52页ppt
专知会员服务
120+阅读 · 2019年10月10日
【CAA智库】高文院士:转向跨媒体智能
中国自动化学会
22+阅读 · 2018年8月20日
IDC发布对话式人工智能白皮书|附下载
人工智能学家
6+阅读 · 2018年3月20日
搜狗推出唇语识别技术 提升远场语音交互
智东西
3+阅读 · 2017年12月14日
史上最全!阿里智能人机交互的核心技术解析
阿里技术
4+阅读 · 2017年12月2日
阿里智能对话交互实践与创新
人工智能头条
5+阅读 · 2017年11月30日
一文读懂语音识别史
机械鸡
9+阅读 · 2017年10月16日
Self-Driving Cars: A Survey
Arxiv
41+阅读 · 2019年1月14日
Arxiv
8+阅读 · 2018年11月27日
QuAC : Question Answering in Context
Arxiv
4+阅读 · 2018年8月21日
Arxiv
9+阅读 · 2016年10月27日
VIP会员
相关VIP内容
相关资讯
【CAA智库】高文院士:转向跨媒体智能
中国自动化学会
22+阅读 · 2018年8月20日
IDC发布对话式人工智能白皮书|附下载
人工智能学家
6+阅读 · 2018年3月20日
搜狗推出唇语识别技术 提升远场语音交互
智东西
3+阅读 · 2017年12月14日
史上最全!阿里智能人机交互的核心技术解析
阿里技术
4+阅读 · 2017年12月2日
阿里智能对话交互实践与创新
人工智能头条
5+阅读 · 2017年11月30日
一文读懂语音识别史
机械鸡
9+阅读 · 2017年10月16日
相关论文
Self-Driving Cars: A Survey
Arxiv
41+阅读 · 2019年1月14日
Arxiv
8+阅读 · 2018年11月27日
QuAC : Question Answering in Context
Arxiv
4+阅读 · 2018年8月21日
Arxiv
9+阅读 · 2016年10月27日
Top
微信扫码咨询专知VIP会员