如何用AR升级星巴克体验?阿里工程师祭出了“三板斧”

2018 年 2 月 27 日 阿里技术 白饭


阿里妹导读:去年年底,星巴克臻选咖啡烘焙工坊在上海开幕,这是全球第一家带有AR体验的新零售咖啡工坊。这项AR技术是由阿里人工智能实验室的X实验室研发,顾客可以通过AR一边喝着咖啡一边探险,感受星巴克咖啡烘焙、生产及煮制的全过程,同时通过AR技术还能直观感受到2万平米里工坊中的每处细节。


今天,阿里妹将用一杯咖啡的时间,为你揭开AR背后的神秘面纱。 



看如何用AR来升级购买咖啡豆的体验


AR介绍


AR全名扩增实境,是一种实时融合现实与虚拟的图像技术。如果把AR当作是一个小二,那他在星巴克店里的工作是这样的:“我看看相机里有没有咖啡壶,有的话我就在上面放个交互按钮给客人,然后让这个按钮一直粘着咖啡壶。”AR小二的工作内容其实就是AR技术的三板斧:感知(寻找咖啡壶),渲染(画上互动按钮),追踪(粘着咖啡壶)。



在图像领域,“追踪”与“渲染”已经是较为成熟的技术。主要的技术障壁在于“感知”这项魔术上。举个例子,国外知名的《精灵宝可梦Go》是第一个火红的游戏,是一款类似抓猫猫的AR游戏。虽然大火,但是《精灵宝可梦Go》的缺点是它的AR模式无法与环境交互,玩家可能会看到皮卡丘浮在半空,小火龙站在湖面上等等诡异的画面。技术上而言,《精灵宝可梦Go》只使用了基于纯硬件的“追踪”与“渲染”,完全没有感知能力。低端的AR能力使得玩家没有代入感,大部分的玩家是长时关闭AR模式在进行游戏的。


《精灵宝可梦Go》的AR效果


那具备高度感知能力的AR应是什么样子呢?目前很多社交软件与照相软件都可以实时地让视频里的用户突出狗舌头,戴上猫耳朵,画上萌萌的猫胡须,甚至有些软件可以让用户实现AR化妆。这些软件都具备成熟的人脸感知能力,包括人脸的位置,嘴巴的开合,甚至五官的位置与轮廓。但是这些感知是有局限性的,聚焦在相对成熟的人脸感知领域;相对的,要让机器感知人类惊鸿一瞥就能理解的大千万物是更为艰难的任务。


客户端识别


AR讲求实时,能够在客户端实现的识别就在客户端完成是最有效率的。我们在客户端使用经典机器学习算法识别一些不易受环境影响纹理的大型物体,例如店内的大铜罐,烘豆机等等,并且采用了多种数据预处理策略,最后达到非常惊艳的效果,在客户端运算也不像服务端访问会受到网络流量限制,响应时间也非常快速,效果是十分稳定的。


但是店里可以被AR感知的物体变化多端,从大型的吧台到手持的法压壶都可以被识别。这些物体有一些传统机器视觉难以克服的难题:


  1. 金属反光:从不同的角度无环境看一件物体,可能是截然不同的纹理。

  2. 透明:例如法压壶等中空的透明容器,里面会放多少物体没人知道,甚至大部分的时候是空的

  3. 变化的环境:随处放置的小物件,细小的目标物,各种不同的手机相机,都增加了识别到难度。


为了克服这些难题,我们架设了一套基于深度学习的云识别服务。


云识别服务


深度学习在图像上的应用已经十分成熟,包括图像分类模型,目标识别模型等。我们结合了两者来实现图像感知功能,以下简述两者的特点:


  • 目标识别模型:可以感知目标物的内容的位置,缺点是感知能力较弱

  • 图像分类模型:拥有高感知能力的“分类模型”,缺点是无法确定目标位置


透过结合了分类模型与检测模型优点,对于大部分的物体可以用检测模型识别位置,而难以感知的物体交给分类模型,并且“猜”一个位置出来。


左:分类模型的输出,右:识别模型的输出


图像合成


无论是机器学习还是深度学习都需要大量的数据支持,但是大量且多样化的资料采集是非常旷日费时的工程。对于可任意放置、透明且反光的咖啡法压壶而言,训练数据多样性的重要性更不容忽视。


图像合成正式解决多样性问题的利器。透过图像合成,我们可以自动化的将任意的目标物,放置在任意的背景:


  1. 在绿幕搭配图像采集工具,大量采集目标物图像

  2. 搭配自动绿幕抠图,抠出图像目标

  3. 与任意背景图像合成,并将目标色彩转换至与背景相近的色彩分布


值得注意的是,图像合成不在乎合成结果是否合乎逻辑,例如大小与物理定律。合成目的在于教导机器区分前景与背景。




图像合成步骤



色彩融合示意图


色彩与成像模拟


对于一个基本的AR应用,上述的工程算是大功告成了。但AR感知相当依赖摄像头的成像质量,对于大规模的商业AR应用来说,适配不同的手机摄像头仍是绝对要的。


实际使用大量手机并大量采集资料是一个解决方式,但是对于一个人工智能团队来说这不是一个智能的办法。我们利用两种自动化算法,可以从已有的图像转换成其他摄像头采集的模拟图像:


1.纯色彩变化:以图像B的色彩当作参考,将图像A的色彩分布转化与图像B一致


纯色彩变化范例


2.响应曲线模拟:将摄像头A的响应曲线用另一款摄像头B的响应曲线替代,模拟摄像头B的生成图像


响应曲线模拟结果范例


AR与新零售


融合现实与虚拟的AR技术让星巴克臻选咖啡烘焙工坊重构为一家新零售的咖啡工坊。即使星巴克小伙伴们应接不暇,AR也能让每个客户进入星巴克的那一刻起成了探险者,透过自己手机的摄像头在店内自由寻宝,比起小伙伴的带领更能引发用户的好奇心。


虚实结合的AR与打通线上与线下的新零售理念不谋而合,结合AR的新零售应用还有无限可能。天猫精灵APP中的AR说明书就是一例,还没体验过的可以下载感受下。


最后,如若大家有更多好的想法,也欢迎在留言区一起交流。我们期待看到更多不一样的解决方案。





你可能还喜欢

点击下方图片即可阅读



阿里小蜜这一年,

经历了哪些技术变迁?



免费下载!

《九年双11:互联网技术超级工程》



前端工程师的未来在哪里?



关注「阿里技术」

把握前沿技术脉搏

登录查看更多
1

相关内容

增强现实(Augmented Reality,简称 AR),是一种实时地计算摄影机影像的位置及角度并加上相应图像的技术,这种技术的目标是在屏幕上把虚拟世界套在现实世界并进行互动。
人机对抗智能技术
专知会员服务
201+阅读 · 2020年5月3日
德勤:2020技术趋势报告,120页pdf
专知会员服务
190+阅读 · 2020年3月31日
【经典书】Python计算机视觉编程,中文版,363页pdf
专知会员服务
139+阅读 · 2020年2月16日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
95+阅读 · 2019年12月4日
【斯坦福&Google】面向机器人的机器学习,63页PPT
专知会员服务
24+阅读 · 2019年11月19日
【干货】谷歌Joshua Gordon 《TensorFlow 2.0讲解》,63页PPT
专知会员服务
27+阅读 · 2019年11月2日
复旦大学邱锡鹏老师《神经网络与深度学习》书册最新版
如何运营15万付费用户?
三节课
6+阅读 · 2019年2月28日
鼠标终将消失,未来我们有哪些人机交互方式?
人工智能学家
5+阅读 · 2018年11月25日
刘强东清明节回湖南湘潭认祖,带给乡亲100亿“小礼物”
中国企业家杂志
7+阅读 · 2018年4月7日
如何用人工智能秒杀超级马里奥游戏
CSDN
4+阅读 · 2018年1月7日
一天造出10亿个淘宝首页,阿里工程师如何实现?
机器学习研究会
5+阅读 · 2017年12月20日
有了场景和画像才懂用户
互联网er的早读课
6+阅读 · 2017年8月26日
Arxiv
5+阅读 · 2019年2月28日
Arxiv
4+阅读 · 2018年6月5日
Arxiv
5+阅读 · 2018年5月22日
Arxiv
4+阅读 · 2018年3月14日
Arxiv
6+阅读 · 2018年2月7日
Arxiv
3+阅读 · 2012年11月20日
VIP会员
相关VIP内容
人机对抗智能技术
专知会员服务
201+阅读 · 2020年5月3日
德勤:2020技术趋势报告,120页pdf
专知会员服务
190+阅读 · 2020年3月31日
【经典书】Python计算机视觉编程,中文版,363页pdf
专知会员服务
139+阅读 · 2020年2月16日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
95+阅读 · 2019年12月4日
【斯坦福&Google】面向机器人的机器学习,63页PPT
专知会员服务
24+阅读 · 2019年11月19日
【干货】谷歌Joshua Gordon 《TensorFlow 2.0讲解》,63页PPT
专知会员服务
27+阅读 · 2019年11月2日
复旦大学邱锡鹏老师《神经网络与深度学习》书册最新版
相关资讯
如何运营15万付费用户?
三节课
6+阅读 · 2019年2月28日
鼠标终将消失,未来我们有哪些人机交互方式?
人工智能学家
5+阅读 · 2018年11月25日
刘强东清明节回湖南湘潭认祖,带给乡亲100亿“小礼物”
中国企业家杂志
7+阅读 · 2018年4月7日
如何用人工智能秒杀超级马里奥游戏
CSDN
4+阅读 · 2018年1月7日
一天造出10亿个淘宝首页,阿里工程师如何实现?
机器学习研究会
5+阅读 · 2017年12月20日
有了场景和画像才懂用户
互联网er的早读课
6+阅读 · 2017年8月26日
相关论文
Arxiv
5+阅读 · 2019年2月28日
Arxiv
4+阅读 · 2018年6月5日
Arxiv
5+阅读 · 2018年5月22日
Arxiv
4+阅读 · 2018年3月14日
Arxiv
6+阅读 · 2018年2月7日
Arxiv
3+阅读 · 2012年11月20日
Top
微信扫码咨询专知VIP会员