2019零售大变局！3D视觉暗战智能货柜

会员服务 ·

2019零售大变局！3D视觉暗战智能货柜

2019 年 1 月 17 日 智东西

看点：3D动态视觉货柜爆发前夜探秘，凭什么它是智能货柜的终极形态？

当经历了2017年的疯狂点位大战以及2018年的巅峰急坠之后，智能货柜终于迎来了行业的终极形态——3D动态智能货柜！

3D动态智能货柜就能为这个行业带来了什么？高空间利用率、精准商品识别效率以及低计算量之外，技术是否已经成熟，产业链的构建是否完善，巨头们到底有谁在瓜分这块距离用户最近的蛋糕？

带着这些问题，在过去的几周里，智东西在采访了数十位行业头部玩家以及领域内专家后发现：当前的3D动态视觉货柜正处在大规模爆发的前夜，一场关于技术以及点位抢占的商业竞赛在2019年一触即发。

一年升级四次，智能货柜终极形态显现

站在3D动态货柜破空而出的当下，我们会发现在经历了一年多的发展后，无人货柜早已脱离了草莽阶段，精细化运营以及角色区分正成为当下行业的一大趋势。

这一阶段，出现了阿里为代表的智能货柜平台商，以每日优鲜为代表的货柜运营商，以及以小卖柜为代表的整体货柜制造商，进一步拓展到产业链上游，我们会发现以图漾科技为代表的3D摄像头厂商已经准备就绪，同时以深视科技为代表的3D动态子模块提供商也早已等待多时。

而从技术角度来看，你会发现一切发展的迅速而又静默，短短一年多时间，产品方案就已经经历了四代升级。

从无人货架进化到智能货柜的第一代雏形大概发生在2017年初，当年4月“CITYBOX”智能货柜上线，主要采用了RFID频射标签进行自动扣款的方式。

在这种运营方式中，每一件商品都会贴上一个成本大约为5毛的RFID标签，然后货柜的每一层都会装上相应的传感器，价格约在千元左右，商品进出全部会被传感器所捕捉。

但是没过多久，RFID方案就由于用户可能撕标签带来商品盗损，以及部署、运营成本过高而迅速被市场淘汰。曾有业内人士笑称，做RFID方案货柜的最后都是给标签厂打工的。

接着，到了2018年年初，以非典型智能货柜玩家深兰科技为代表的机器视觉智能货柜面世，将智能货柜的市场带到了“摄像头”时代。

这一时期的智能货柜会在每层的顶部中央位置都放一个摄像头，或者在每层的左右两侧各布一个摄像头，然后算法会根据每层的摄像头记录下的货柜开门前后每层商品的变化来完成扣款。

但是这种方案由于需要摄像头完整的拍到每层商品变化，因此这就需要商品的摆放不能发生堆叠，并且摄像头与商品中间也要留出很大空距，因此这一方案虽然保障了安全但却造成了极高的空间浪费。

另外，一旦需要对SKU进行增减，静态方案就需要对单品SKU的训练进行不断的位置调整训练，以应对各种可能的取放情况，因此方案整体会出现过拟合以及对SKU品类限制较高的情况。当前市面上的主流静态方案应用还都停留在卖饮料等典型标品的阶段。

可以弥补这种缺陷的则是动态视觉方案，2018年3月，YI Tunnel在“中国零售数字化创新大会”上首先亮相了这项技术。同样是以计算机视觉识别商品，动态方案利用的是门口的四个摄像头来识别用户开门后手上的商品，因此对于货柜内部商品的摆放几乎没有任何要求，同时也减少了智能货柜内部的摄像头数量。

不过与静态识别可以将所有数据上传云端后再进行识别不同，动态识别需要对连续多帧的图像中的每一个像素点都进行识别，需要进行大计算量的本地化部署。

具体来说，传统动态方案通常需要摄像头配备720的像素，每秒60帧的速率。计算所需的最普通的一个1070的显卡就要五千块左右，另外还需要主板、CPU、内存、封装等一系列配置，最后，一套系统部署下来单柜成本就会提升近万元。

为了降低本地化部署的成本同时降低背景对识别效率的影响，3D动态视觉方案在2019年年初正式登场。

3D动态视觉方案与传统动态方案的主要区别在于一个用于定位的3D摄像头的引入，它可以原有的2D摄像头抓拍中从空间角度对用户手上的物品进行像素级定位，进而将无关背景做到擦除，只识别特定区域内的商品，做到减少计算量从而降低成本的目标。

三大头部入场，2019战事一触即发

在3D动态视觉货柜迎来爆发的前夜，最先面世的产品是小卖柜在2018年12月中旬发布的“极目系列动态视觉智能货柜”。

有业内人士透露，当前小卖柜的这一款产品事实上还没有进入大规模的地推阶段，不过已经有了小范围的量产，在一些展会上我们可以看到该款产品的亮相。

从技术角度来看，这款产品是主要利用Intel OpenVINO AI工具包开发，基于3D+2D的动态视觉识别辅以重力感应的方式，货柜可以容纳240件商品堆叠放置，而结算的准确率则可以达到99%。无论用户单手、双手还是多次取放都能做到实时交互与识别。

硬件配备上，极目系列动态视觉智能货柜使用的是一款低功耗的边缘计算设备来实现模型推导加速，可以在用户关门的瞬间，在本地就完成结算，极大的缩短了用户购物的结算时间与宽带成本。

耗电量上，这款产品的容量柜机容量510升，还配上了一块21.5寸的LED大屏，可以实时显现用户取放的商品及定价，但是功耗仅为3度/天。

除了整柜制造商小卖柜外，当前阿里也在以平台商的角度对这一方面进行积极的探索。

自2016年的双十一起，阿里的新零售智能事业群就已经开始了智能货柜的立项，到了2018年年底，正式开始了对3D动态智能货柜的探索。

据悉，阿里为了铺设这套3D动态方案曾经前后接触过三家方案商的产品，其中准确率、售价、用户体验都是重要考量。

不过据阿里内部人士表示，设备正式铺开之前，设备还需要一段时间的测试与优化，当前在阿里巴巴的西溪园区已经有了少量设备开始了测试。预计今年的11月份左右，阿里将对这套设备进行大范围的铺展推广。

货柜运营商每日优鲜方面，有消息称其早在2018年的四月左右就已经开始了对3D动态视觉方案的探索，当前已经在个别点位进行了试运营。

迎接市场爆发，三维视觉算法提供商已经就位

“如果3D动态的方案都跑不出来，智能货柜也就别做了。”在问及关于智能货柜未来几年的发展后，深视科技CEO张磊这样对智东西表示。

深视科技是一家计算机三维视觉算法提供商，早在2017年年中的无人货架浪潮刚刚兴起的时候，张磊与其他两位核心创始人员就将目光瞄准了3D动态视觉方案的智能货柜之中。当前已经达成了与个别头部厂商的合作，并且对产品进行了小规模的试点运营。

而他们所负责的正是货柜当中的3D动态视觉系统子模块，简单来说就是3D动态方案中的商品识别算法研发以及相应的硬件采购配置。

在他看来，此前市面上主流的智能货柜解决方案都或多或少有一些致命伤的存在。而3D视觉方案所带来的货柜空间利用率高、本地化部署成本低以及商品识别的精准度高这三大优势则正好可以解决此前的一些行业方案的不足。

当下定决心做这一行之后，他首先确认了一个原则就是要将方案做的通用且高效。

此前市面上的一些3D动态视觉方案，大多与微软的三维视觉游戏Kinect相类似，但是这种方案当时只能跑在X86的平台之上，如果要做到大规模的行业应用，成本就成了致命伤。

因此如何能够ARM平台，根据硬件特性对算法进行优化就成了当务之急。在解决了这一问题之后，成本问题也就随之骤降，张磊表示，当前深视科技一套完成CPU、GPU、内存等封装的系统也不过两千元左右，仅仅是2D动态方案的三分之一左右。

技术难题之外，如何将一个demo变成行业通用的稳定方案也同样是一个不容忽视的问题。

最简单的事情，就比如四个2D摄像头的布局，一般人可能会想到顶上两个摄像头方向向下，底部两个摄像头方向向上，这样就可以将用户的行为比较清晰的捕捉完全。

但是实际应用之后，就发现这一方案根本行不通，夏天女孩子穿短裙的话就足以让这套方案变得十分尴尬。经过商讨，最终大家才确定了四个2D摄像头两个在顶上，两个在中间，一个3D摄像头在顶部的中间位置，全部向下拍摄的方案。

甚至关于3D摄像头的位置也是一个被反复商讨优化的问题。最开始，由于3D摄像头会存在一定的盲区，大家会将3D摄像头的位置放的比较高，但这样部署之后摄像头就无法捕捉到用户本身，这又对识别效率带来一定的影响。

另外，有时候会出现用户单手拿多件产品的问题，这会对商品的识别效率带来一定的影响。

本以为这是个要通过各种硬件升级或者算法优化的复杂问题，但是最后通过在柜子顶部以及每层货架的底部加上一块透明挡板，就完成了让用户无法在盲区内取出商品，也无法一次性取出太多商品的目的。有一位前来参观的行业大佬曾经笑言，你们这一块板子可以申请专利了。

迎接市场爆发，3D摄像头迎来了智能货柜的定制化时代

深视科技的3D摄像头提供方图漾科技几乎也是在2017年就将目光瞄准了消费领域。

在图漾科技CEO费浙平看来，3D摄像头在工业级的应用在当时已经逐渐成熟，足以支撑企业的稳定盈利。而同样对3D视觉有着迫切需要的零售行业当前还处于蓝海阶段。

▲图漾科技CEO费浙平

虽然底层的硬件技术上，工业领域与零售领域的区别并不算大，但是针对不同行业，摄像头的参数、镜头等配置依旧需要漫长的时间调整。

从2017年决定进军消费领域到2018年需求逐渐显现的一年时间里，费浙平把精力主要放在了产品针对特定消费领域的打磨上。

首先是技术的选择上，当前市面上的3D摄像头方案主要有以下几种类型：TOF、RGB双目、结构光。

三种主流方案中，比较成熟的是结构光和TOF。其中结构光方案最为成熟，但是极易受到外界光的干扰、响应速度较慢、识别精度较低；TOF则在这几个方面比结构光方案具有一定的优势，因此TOF成为了目前在移动端被看好的方案。基于视差原理的双目立体成像方案抗环境光干扰强，分辨率高，也是移动端可选方案之一。但是纯双目方案当前页存在着在纹理单调的环境中找不到匹配点而失效的缺点。

与市面上的传统方案不同的是，图漾采用的则是主动双目视觉方案，3D视觉传感器由双目红外摄像头、彩色摄像头和光学增强系统组成，也就是将双目方案与结构光方案整合。

其中，光学增强系统也就是业界所成称的结构光，本质上就是一个激光投射器，双目摄像头相当于接收器。当投射器投出的光线打在物体表面，物体将光线反射到两个摄像头内，以此收集相应参数信息，再由图漾搭配的算法，通过计算给出物体的长宽高、距离等物理属性。可以克服以上几种方案在精准度以及效率上的不足。

除了技术问题，还有产业定制化的问题需要应对。

一般来说，应用在消费领域的摄像头售价仅在中下游的水平，因为其对于远距离识别的精准度要求并不高。但是针对这一领域，对硬件的盲区范围、视角以及速度却有着更高的要求。

以帧率来说，一般的3D摄像头帧率是每秒30帧，但是在智能货柜中就需要60帧才能支持用户的快速的取放。视觉盲区的大小上，当前市场主流的方案盲区较大，一般要50公分开外才能有数据，但是在智能货柜中，这一参数必须缩短到20甚至15厘米以内，以防止用户从盲区取货带来商品的盗损。与此相配合的镜头视角上，也需要从60度扩展到90度或者100度。

这些看似容易，但是却涉及到了镜头的更换，传感器参数的调试，以及重新打版的产能投入，如果没有提前预测到市场的这一需求或者没有足够的技术保障，是无法满足客户的这些需求的。

而在完成demo之后，如何保障在真实情况下适用，依旧需要漫长的压力测试之路要走。例如最基本的问题：用户什么动作才是正常的，什么动作是违规的，真实情况下会出现什么比较异常的消费行为，需要对相应的硬件产品的参数要提出什么需求，这些都需要时间的验证。

但获取消费者行为数据并不是普通硬件厂所擅长的，因此获得头部客户的支持，共同完成产品的打磨又成了必须迈过的一道坎，费浙平表示，当前图漾已经与多家头部3D动态货柜厂商达成了深度合作。

3D智能货柜未来的可能与当下的局限

为什么做智能货柜？不同的身份会有不同的考量，于品牌商小卖柜而言或许这将带来更大的货柜销量，于运营商每日优鲜而言，这或许将带来运营效率的成倍提升以及成本的急速下降，而于阿里而言，作为对新零售的重要探索方式，这或许将为其再造一个线下的天猫。

当前阶段，国内的电商的爆发性增长几乎不会再来临，而剩下的用户大多沉淀在农村与线下领域。农村方面，无论是拓展的速度还是增长的幅度都十分有限，而线下则几乎是一块未经开垦的处女地，如果将其利用得当，很可能会带来一次爆发式的增长。

简单的算一笔账，如果运营商铺设两万台设备，单台设备一天的订单量仅为15单，那么单日的订单量就可以达到三十万。而电商新贵拼多多在创立两年后的日订单量也不过30-40万。于阿里而言，这几乎是再造了一版线下的天猫。

而深扎线下场景的智能货柜还可以完成一些线上的天猫与拼多多所不能完成的事情。例如天然的广告展示属性与和用户更近的距离。

以友宝在线为例，这是一家传统的自动贩售机厂家，根据其财报披露，友宝在线2018年上半年运营设备总量大约为5.5万台，营业收入11.41亿元，净利润8604.85万元，而其中广告端的收入就达到了2.14 亿元。

如果以日本共计五百多万台收货机的密度来算，而当前的市场总量还远远未到饱和。如果将中国的售货机、智能货柜大屏全部利用起来，那么再造一个分众传媒也不是难事。

未来可能无数，但是眼前仍有问题有待解决，从技术成型到市场成熟，涉及的一整条产业链的交互配合。

尽管在当前阶段，3D动态识别技术在智能货柜中的应用已经基本成型，但如何保障及真实情况下的运营效率以及其他配套硬件的产能供给，这都是需要在不断的优化中慢慢改进的。

一方面，从技术指标上来看，如何降低用户单手取三件或多件商品的识别误差还需一些改进，这种针对各种突发情况的改进还需真实情况下的货柜运营方反馈。

效率上，尽管3D动态识别相较传统的静态识别的SKU训练速度已经有了非常大的改进，但是单品两千张的训练样本需求在面对大规模SKU上架时仍旧需要对算法、算力、成本以及时间消耗进行一定的考量。

配套设施上，尽管当前的3D视觉技术已经相对成熟，但是用于复核校验的微重力感应设备还没有完成对零售行业的定制化生产，这也对设备的大规模投放时间带来了一定的影响。

不过，当技术与模式都已成型，剩下的事情一切交给时间就好。

结语：终极形态已定，市场是否将重现2017的点位大战？

从兴起到如今，无人货柜走过了过山车似的两年，第一年里，草莽丛生，资本、点位大战高潮迭起，第二年里，玩家疯狂退却，形态一年四变。

当终极形态被基本定格在3D的动态方案，技术已经成型，智能货柜的下半场将走向何方？2017年的点位大战又是否将重现江湖？

或许技术的成型会给这个行业带来一管大剂量的强心针，但是市场却从来不会这么简单，形态只是这个市场上露出的冰山一角，海平面之下的供应链之战、支付入口之战、供应商抢夺战……一切都还待定。

尽管如此，技术的进步依旧为这个行业的发展带来了无限可能，在一片高呼智能货柜已死，无人零售没有未来的唱衰中，3D动态视觉正将智能货柜推向再一次爆发的前夜。

本账号系网易新闻·网易号“各有态度”签约帐号

本周五晚8点，NVIDIA深度学习解决方案架构师孟宾宾将在智东西公开课开讲，主题为《使用TensorRT实现目标检测模型的推理加速》。主讲群名额有限，欢迎扫码报名！

登录查看更多

相关内容

关注 36

3D是英文“Three Dimensions”的简称，中文是指三维、三个维度、三个坐标，即有长、有宽、有高，换句话说，就是立体的，是相对于只有长和宽的平面（2D）而言。

少标签数据学习，54页ppt

专知会员服务

203+阅读 · 2020年5月22日

【德勤】新基建战略规划及投资新机会，16页pdf，新型基础建设投资机遇的初步解读

专知会员服务

98+阅读 · 2020年5月18日

3D目标检测进展综述

专知会员服务

193+阅读 · 2020年4月24日

2020年中国《知识图谱》行业研究报告，45页ppt

专知会员服务

240+阅读 · 2020年4月18日

德勤：2020技术趋势报告，120页pdf

专知会员服务

191+阅读 · 2020年3月31日

Python数据分析:过去、现在和未来，52页ppt

专知会员服务

102+阅读 · 2020年3月9日

【报告】2019未来医疗产业树报告，125页ppt，供需视角解析产业结构，三维视角观察行业演进

专知会员服务

26+阅读 · 2020年2月3日

报告 | 2020中国5G经济报告,100页pdf

专知会员服务

98+阅读 · 2019年12月29日

【德勤】中国人工智能产业白皮书，68页pdf

专知会员服务

308+阅读 · 2019年12月23日

2019年人工智能行业现状与发展趋势报告，52页ppt

专知会员服务

124+阅读 · 2019年10月10日

5G全产业链发展分析报告

行业研究报告

11+阅读 · 2019年6月7日

自动驾驶汽车决策层算法的新方向

智能交通技术

7+阅读 · 2019年4月6日

【智能驾驶】97页PPT，读懂自动驾驶全产业链发展！

产业智能官

15+阅读 · 2019年4月5日

【物联网】物联网产业现状与技术发展

产业智能官

15+阅读 · 2018年12月17日

【人工智能】【智能驾驶】人工智能在汽车自动驾驶系统中的应用分析

产业智能官

18+阅读 · 2018年11月22日

对比激光SLAM与视觉SLAM：谁会成为未来主流趋势？

人工智能学家

8+阅读 · 2018年11月13日

【物联网】物联网平台最详尽分析：从产业生态看物联网平台价值

产业智能官

9+阅读 · 2018年9月15日

鹰眼科技：3D视觉解决树脂塞孔检测难题

未来产业促进会

5+阅读 · 2018年6月10日

上汽乘用车：智能驾驶汽车传感器介绍及布置 | 厚势

厚势

14+阅读 · 2018年1月19日

【智能驾驶】史上最全自动驾驶系统解析

产业智能官

25+阅读 · 2017年8月21日

Spatio-Temporal Graph for Video Captioning with Knowledge Distillation

Arxiv

19+阅读 · 2020年3月31日

Speech2Action: Cross-modal Supervision for Action Recognition

Arxiv

7+阅读 · 2020年3月30日

Graph Convolutional Networks for Temporal Action Localization

Arxiv

5+阅读 · 2019年9月7日

Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation

Arxiv

9+阅读 · 2018年11月25日

A Unified Knowledge Representation and Context-aware Recommender System in Internet of Things

Arxiv

10+阅读 · 2018年5月10日

Learning Human Pose Models from Synthesized Data for Robust RGB-D Action Recognition

Arxiv

3+阅读 · 2018年5月1日

Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments

Arxiv

5+阅读 · 2018年4月5日

Learning Representative Temporal Features for Action Recognition

Arxiv

4+阅读 · 2018年3月14日

Long-term Visual Localization using Semantically Segmented Images

Arxiv

7+阅读 · 2018年1月16日

Temporal 3D ConvNets: New Architecture and Transfer Learning for Video Classification

Arxiv

8+阅读 · 2017年11月22日

VIP会员