阿里发布AliGenie2.0系统,“百箱大战”用上视觉武器

2018 年 3 月 23 日 新智元 张乾

2018 新智元 AI 技术峰会倒计时 6 天】

2018年3月29日,北京举办的2018年中国AI开年盛典——新智元产业·跃迁AI技术峰会,邀微软全球技术院士、微软语音、自然语言和机器翻译团队负责人黄学东博士和微软全球杰出工程师张祺博士,解析语音和机器翻译最新突破和人机交互未来趋势,阐释微软“行业+AI”在中国落地的战略布局!想近距离交流互动?点击文末阅读原文,马上参会!

抢票链接:http://www.huodongxing.com/event/8426451122400





  新智元报道  

作者:张乾

【新智元导读】昨天,阿里巴巴人工智能实验室总经理浅雪宣布天猫精灵销量已经突破200万台,更重要的是,最新的AliGenie2.0系统增加了视觉能力,并具备多模态交互能力。2018年的“百箱大战”一个重要的趋势就是视觉化、屏幕化,几乎所有的巨头都会让AI音箱“长眼睛”。


天猫精灵X1的升级版X2没有预期出现,而人机交互系统AliGenie升级到最新的2.0版本,功能强大。


3月22日,阿里巴巴人工智能实验室总经理浅雪(陈丽娟)发布AliGenie2.0系统,它最大的改进是在1.0的基础上增加了视觉能力,并引入多模态交互能力,只需要另外增加一些辅助设备,就能让天猫精灵具备视觉能力。同时,浅雪还宣布,天猫精灵销量已经超过200万台。


四年前,亚马逊推出Echo,将AI音箱大战引发;去年,亚马逊又推出带屏幕的音箱Echo Show,音箱视觉化、屏幕化成为一种趋势。除了AliGenie2.0外,京东叮咚Play以及百度即将发布的“小度在家”都具备视觉能力,AI音箱终于要拼视觉了。


AliGenie2.0:增加图像识别、物体检测、人脸识别能力


去年5月,阿里人工智能实验室(AI Labs)发布天猫精灵X1,内置AliGenie1.0系统。


AliGenie1.0已经建立了超强的知识体系,在这个知识体系当中拥有1个亿的实体理解能力,构建了近10亿的关系。同时AliGenie1.0算法也在升级,阿里AI Labs发布了一个全新的序列标注模型,这个序列标注模型能解决有自动纠错的能力,可以帮助语音理解有更强的容错性。AliGenie还具备主动学习能力,每一次跟用户的交互过程当中,系统都会自动完善。


浅雪发布的AliGenie2.0系统,是在1.0的基础上形成具备视觉、语音等多模态交互能力的新一代的人机交流系统。它不仅会具备听觉能力,还有视觉能力和情感反馈能力。


其中,视觉能力中又分为图像识别、人脸识别、物体检测三大技术。



同时,阿里AI Labs还把语音能力和视觉能力进行了融合,形成多模态交互的过程,从而构建一个更聪明的人机交流系统。


浅雪认为,人机交互远远不仅语音,“我们觉得在未来人机交互不仅有听觉,还有视觉、嗅觉,以及有更强的情感反馈能力。”


阿里AI Labs去年在自然语言理解等方向投入诸多,并在去年10月宣布引入微软亚洲研究院首席研究员聂再清博士、谷歌 Tango 和 DayDream 项目技术主管李名杨博士。目前聂再清负责阿里AI Labs北京研发中心的各项研发工作,并重点突破知识图谱和自然语言理解这两个领域。李名杨任 AI Labs 机器视觉杰出科学家。


阿里AI Labs北京研发中心负责人聂再清


在接受专访时,聂再清表示,天猫精灵具备情景感知、主动学习能力。自然语言理解很大的难点是因为自然语言的多样性,一句话可能有无数的意思,这就需要通过大数据,让开发人员跟大数据的交互主动进行挖掘,主动找到路径让开发人员跟用户一起交互,把语言的各种意思都完善了,才能让机器听懂,这也是阿里AI Labs 技术上的优势。


阿里AI Labs做硬件的逻辑:亲手打造更懂跨界,AliGenie系统将来或开放


虽然天猫精灵X2没有发布,但更小巧尺寸的天猫精灵曲奇、天猫路由器、天猫魔屏 S1 无屏电视以及周边配件等诸多硬件同时亮相。



阿里最擅长做平台,这次一口气发布多款硬件产品,并非要转变路线,其背后的逻辑非常现实:做硬件比软件难的多。


浅雪说,阿里AI Labs在做天猫精灵之前,就已经尝试跟行业的一些合作伙伴共同研发硬件,但在合作过程中碰到了非常多的挑战,毕竟软硬件这两个不同领域跨界合作,相互之间并不清楚里面存在的问题。


一般来说,如果自己只做服务、系统,交给第三方做硬件的话,不容易掌握品控、制造周期等环节,这也是AI Labs去年自己着手打造硬件的原因。


不过,阿里做平台的基因没有变。浅雪希望AliGenie这个系统将来做的更好,让硬件的合作伙伴可以做(相关产品),应用AliGenie这套技术。



此外,浅雪还宣布,现在天猫精灵的销量已经突破200万台。


百箱大战继续升级:增加视觉能力,实现更多场景

2014年亚马逊的Echo问世,点燃了AI音箱大战的导火索,谷歌Home、苹果的Home Pod以及国内的阿里天猫精灵、小米的小爱同学、猎豹AI音箱等纷纷入场;去年亚马逊发布带屏幕的音箱Echo Show,将AI音箱带入另一个竞争阶段:视觉化。


虽然这次天猫精灵并没有推出带屏幕的音箱,但AliGenie 2.0将视觉能力落地,推出了“精灵火眼”:外置一台XHolder(类似手机支架),放置装有天猫精灵手机APP的手机后,能够让天猫精灵具备视觉认知能力。



这种做法类似当年谷歌在推出VR产品时,外设的Google Cardboard,能够在实现视觉功能的同时,最大限度节省成本。


但“友商”们更激进。在今年CES上,京东智能音箱叮咚Play亮相,这款产品配备了8英寸的液晶显示屏,能够实现视频通话、人脸识别等功能。百度近日也宣布,将在下周发布“小度在家”智能视频音箱。


进入2018年,视觉化、屏幕化让“百箱大战”进入到新的竞争阶段。与单纯的语音音箱而言,加入了视觉功能的音箱能够实现更多场景。以“精灵火眼”为例,阿里与出版业合作,通过图像识别书本后,“精灵火眼”能够实现智能语音互动、声音朗读,帮助儿童读书、识字,商业化空间巨大。


2018 新智元 AI 技术峰会倒计时 天】

点击阅读原文查看嘉宾与日程

 

 峰会门票火热抢购,抢票链接:

http://www.huodongxing.com/event/8426451122400

 

【扫一扫或点击阅读原文抢购大会门票



登录查看更多
0

相关内容

阿里巴巴集团旗下B2C平台。天猫由淘宝网打造,整合数千家品牌商、生产商,为商家和消费者之间提供一站式解决方案。 天猫 tmall.com
华为发布《自动驾驶网络解决方案白皮书》
专知会员服务
125+阅读 · 2020年5月22日
2020年中国《知识图谱》行业研究报告,45页ppt
专知会员服务
239+阅读 · 2020年4月18日
阿里巴巴达摩院发布「2020十大科技趋势」
专知会员服务
106+阅读 · 2020年1月2日
【阿里技术干货】知识结构化在阿里小蜜中的应用
专知会员服务
97+阅读 · 2019年12月14日
医疗知识图谱构建与应用
专知会员服务
384+阅读 · 2019年9月25日
当 AI 全面实现认知智能时,机器人还只是机器吗?
未来产业促进会
5+阅读 · 2019年5月9日
讯飞来了,一大批人将面临失业!
创业财经汇
5+阅读 · 2018年4月25日
搜狗推出唇语识别技术 提升远场语音交互
智东西
3+阅读 · 2017年12月14日
“看脸”的时代,AI到底有多智能?
微软丹棱街5号
3+阅读 · 2017年11月9日
小米Note3 ‖ 国产首款支持人脸解锁手机
机械鸡
4+阅读 · 2017年9月12日
【智能驾驶】史上最全自动驾驶系统解析
产业智能官
23+阅读 · 2017年8月21日
Arxiv
9+阅读 · 2019年11月6日
Factor Graph Attention
Arxiv
6+阅读 · 2019年4月11日
Arxiv
12+阅读 · 2019年2月26日
Arxiv
5+阅读 · 2018年10月4日
Arxiv
6+阅读 · 2018年3月27日
VIP会员
相关VIP内容
相关资讯
当 AI 全面实现认知智能时,机器人还只是机器吗?
未来产业促进会
5+阅读 · 2019年5月9日
讯飞来了,一大批人将面临失业!
创业财经汇
5+阅读 · 2018年4月25日
搜狗推出唇语识别技术 提升远场语音交互
智东西
3+阅读 · 2017年12月14日
“看脸”的时代,AI到底有多智能?
微软丹棱街5号
3+阅读 · 2017年11月9日
小米Note3 ‖ 国产首款支持人脸解锁手机
机械鸡
4+阅读 · 2017年9月12日
【智能驾驶】史上最全自动驾驶系统解析
产业智能官
23+阅读 · 2017年8月21日
Top
微信扫码咨询专知VIP会员