3D视觉机遇在前，安卓阵营的应用突围

会员服务 ·

3D视觉机遇在前，安卓阵营的应用突围

2018 年 8 月 9 日 机器之能

应用和内容繁荣是打造技术生态的关键，杀手级的3D应用成为安卓阵营里翘首以盼的希望。这一次，把发言权留给技术背后的推手们。

撰文 | 四月

智能手机已经进入到第十一个年头，市场不再满足于「乔布斯后」时代的iPhone创新。与此同时，以国产手机品牌为代表的安卓阵营开始登上世界级舞台，并在不断分化与成长中缩短与苹果之间的距离。

一年前，iPhone X发布，3D视觉技术首次在消费级市场中普及开来。一年间，华为、OPPO、小米等一线国产手机品牌相继完成了从2D到2.5D，以及3D的进阶和追赶。

据Sigmaintell调查，2018年全球支持3D深度摄像的手机出货量预计将达到1.03亿部；到2019年将达到2.5亿部，安卓手机出货量将大幅提升。

但是，量产并不意味着最终胜利。

提起谷歌早年Project Tango项目的失利——应用生态的短板足以为所有人敲上警钟。伴随技术而生长出的应用和内容生态才是技术繁荣的关键，杀手级应用成为安卓阵营里翘首以盼的希望。

这一次，把发言权留给技术和生态背后的推手们。

最大难题

「如果安卓系统的 Camera API 还停留在支持 2D 的时代，硬件厂商要做 3D 有多难？」3D 解决方案创业公司 Bellus3D 联合创始人兼 CEO Eric Chen 说道。

Bellus3D 联合创始人兼CEO Eric Chen

Bellus3D创建于2015年，主要为手机等移动设备提供高解析度的3D人脸扫描、建模技术和产品。目前，Bellus 3D的3D建模方案主要提供三种实现方式，包括外接式摄像头、手机应用软件、双目结构光。

在机器之心接触到诸多3D视觉方案推动者中，不少人也发出了同样的感慨。

安卓系统的底层API源自于谷歌，开发者基于开源的API来开发应用，但在3D视觉技术升级这件事上，谷歌似乎偏向于保守。

iPhone X的3D结构光视觉技术已经落地将近一年，但安卓系统对于3D视觉技术的多个接口仍未开放。这为安卓阵营树下了一大难题——缺少统一的开发环境。

然而，难题并不是第一次遇到。

经过多年的分化和发展，如今每一家主流安卓品牌厂商都已经改良出一套适应于自家的安卓开发环境，对于开发者而言，即面对每一个不同的手机API。

「在苹果开发应用，只要适配于 AR Kit；但在安卓，OPPO 有自己的AR 开发环境，小米、华为等品牌手机的开发环境都不一样，手机性能也有很大差异。开发者很难适应。三维软件所运行的环境也千差万别，这是阻碍生态发展的最大问题。」

在Eric 看来，移动端的3D视觉是一项新兴技术，如果缺少统一的行业标准，生态很难建立。「短期内一定要解决。」

有开发者向机器之心表示，由于技术上线节奏过快，部分安卓手机厂商来不及开发基于3D摄像头的API，所以可能采取自己创建应用，或是和支持应用合作的模式，比如和电子支付应用支付宝合作。

作为3D视觉技术的老兵，Eric 认为，当下3D技术的市场环境和二三十年前已经有很大的不同。三十年前加入苹果，Eric曾是苹果公司 Quicktime VR 项目的创建者之一，手头拥有16项美国专利。

Eric回忆，1995年时他成为苹果最早一代研发3D技术的成员，受限于硬件技术的限制，主要采用全景方式实现。他表示，当下的3D硬件和技术门槛已经大幅降低，以前开发一个3D的环境非常困难，需要特殊的技术、特殊的人才，但现在面临的最大问题是应用的落地。

艾迈斯半导体大中华区销售和市场副总裁陈平路

谈到3D硬件市场情况，艾迈斯半导体大中华区销售和市场副总裁陈平路表示，如今硬件技术已经突破，但手机市场对于成本十分敏感，如何在低成本下实现3D技术是技术普及的挑战之一。

艾迈斯半导体（AMS）总部位于奥地利，主要提供晶圆级光学元器件和衍射光学元件，并采用高度微型化的光学封装，涉及光学传感、图像传感、环境、音频等四大产品线。

叠境数字科技CEO洪煦

「iPhone X 的 3D 视觉落地以后，曾有数家 3D 硬件模组厂商主动找到我询问应用的事」，叠境数字科技CEO洪煦说道，硬件方表达过他们的担忧：硬件规格会进一步提升，投入增大，但落地之后的真正应用在哪里？

「如果后续缺少应用生态的支持，前期的增量可能会迅速落空。」

叠境数字科技是一家上海的技术创业公司，基于光场技术研发虚拟现实、增强现实、3D成像等多个领域的应用。光场技术最典型的代表性技术公司就是Magic Leap，在VR、AR领域具有潜力应用价值。此前，叠境曾参与阿里“造物神”计划，联合商家建立3D商品库。

反向驱动

相较于苹果的闭源生态，安卓阵营的确过于分化和分散。

「但开放也是安卓的最大优势，苹果相对封闭，并把封闭的优势发挥到最大。安卓一样可以发挥出开放的威力。」旷视科技（Face++）高级副总裁吴文昊谈道。

旷视科技（Face++）高级副总裁吴文昊

借鉴Linux和Windows不同模式的发展路径，Linux从技术落后的平台通过开放、共享，最终与Window相对闭源的生态共同成长，「这正是安卓开发者需要做的。」

吴文昊介绍，旷视从一年前开始切入手机市场，现已成为华为、OPPO、vivo、小米等主流手机厂商的重要合作伙伴，针对移动终端已经建立起识别与感知、计算摄影、3D视觉三大类应用解决方案。

计算摄影，是一个与图像摄影相对的概念，通过拓展传统图像摄影中的某个或多个因素的维度来成像的方法。

图像摄影是在硬件设计固定的情况下，进行信号跟图像的处理，主要由软件和算法进行控制。相对而言，计算摄影则是通过以优化软件和算法的目的反向去驱动硬件的设计，包括光学系统的设计、传感器设计等。

旷视的优势在于应用层的算法。基于计算摄影学同样的逻辑，旷视希望通过从FaceID等应用层去推动3D硬件层面的设计，比如结构光的精度等核心问题。

「用 AI Define Camera，这是旷视想做的事。」吴文昊谈道。

Face++ 移动端3D产品矩阵

为此，旷视基于OPPO Find X等实战经验，整合3D视觉产业链上下游资源，推出「软硬一体」的移动端3D感知解决方案，包括算法创新、应用开发、设备制造到解决方案四个层面。在AI+3D的底层算法研发方面上，旷视专注于识别和重建两大类。

据介绍，旷视目前在人像3D建模、人体3D建模及物体几何测量算法研发方向已处于领先地位，并与Bellus 3D、Altizure等3D视觉企业开展了联合研发合作。

在交流中，吴文昊多次强调垂直整合和应用驱动的概念。他表示，3D和AR落地一样，需要杀手级应用推动，而Face ID将有潜力成为领先者。

对于应用方而言，珠科创新（Altizure.cn）面对缺少统一API的开发环境，则采取云端API调用的模式应对。

珠科创新由香港科技大学教授权龙创办，旗下设有从生成实景三维影像到内容聚合、工业应用的闭环平台Altizure.cn。平台主要通过计算机视觉技术来识别图片中的信息，加以人工智能以及深度学习技术来实现二维图像到三维模型的建立工作。

珠科创新CEO方天向机器之心介绍，在硬件和手机上运行的API通常追求更高的时效性，必然会牺牲掉精度。珠科创新所提供的云端API则更偏重于高精度的三维建模，同时也需要牺牲一定的实时性。

「这是对于硬件平台和使用场景一种平衡。」方天说道。

此外，珠科创新正在尝试建立内容的生态，通过早期专业用户，比如摄影师、编导等生成优质内容，吸引普通大众去享受和消费。

谈到3D应用普及的标志和生态建立的前提，方天表示，「有一天，在朋友圈能看到分享的三维影像内容，或许就是时候到了。」

Bellus3D则试图从B端客户中寻找市场空间。

Eric向我们展示了一款为一家意大利眼镜公司提供的BtoC应用。利用3D人脸扫描和建模后建立的用户瞳孔距离信息，替代用户去实体眼镜店测量的过程，从而实现在线配眼镜。

新iPhone和趋势路透

不可否认，在应用趋势和生态建立方面，苹果仍然是诸多安卓厂商无法避开的参考坐标。

「新代 iPhone 针对 3D 结构光的视觉方案可能不会出现太大升级，但该技术在应用和场景层面在延展和新玩法将为安卓市场提供重要参考。」AMS 的大中华区销售和市场副总裁陈平路向机器之心表示。

去年，AMS的核心DOE核心元件被用于iPhone X 中。此后，AMS通过收购战略再布局VCSEL（垂直腔面发射激光器）和面部识别算法等多项技术。

据国际电子商情网，AMS的光源发射VCSEL技术有望应用于新款苹果手机中。陈平路向机器之心确认了该消息。

除已经落地在iPhone X、OPPO Find X等机型中的3D结构光技术外，TOF（Time Of Flight 飞行时间）和双目成像也是移动端3D成像的主要技术方式。

有分析表示，从数据来看，目前主要是以3D结构光方案为主；但从供应链成熟度及相关专利考量，预计TOF的增长速度将成为明年的发力重点。

采用TOF方案的微软Kinect 2代

Eric 预计，后置的TOF方案将可能应用到主流手机厂商中，可能包括新一代iPhone和华为Mate。因为TOF适用于远距识别、抗干扰性强等特点，在AR功能性应用和娱乐应用中将发挥重要作用，比如3D房屋建模和设计等。

从移动端的落地场景来看，3D技术大致可分为两个方向——前置和后置。

在未来三年内，前置3D技术和应用将会成长非常迅速，Eric Chen认为，而相对来说，后置3D则会慢一些。因为前置3D技术挑战较小，使用场景也更为明确。前置的对向物体离使用者距离更近，拍照和扫描的环境容易控制。

谈到 3D 技术后续的发展趋势，Eric 认可上升的方向，但他同时表示，「要真正产生出应用生态，不能光靠解锁，前期被追捧可能是因为厂商试水、用户好奇，但新鲜感过去后，高速增长很难靠解锁继续维持。」

毕竟，指纹、虹膜、密码都能够进行解锁，人脸解锁并不是不可取代的方式。而引爆的关键，就在于找到一种人脸解锁具备不可替代的应用场景。

谈到手机发展趋势的判断，陈平路表示，在AI时代，人需要解放的是双手，或者通过手机，或者通过眼镜等穿戴式设备，这在技术层面可实现，但挑战将集中在硬件上。

他强调，从传感器和处理器层面来看，多个传感器的小型封装化、集成化、系统化的道路没有尽头。

多年后回望历史，我们或许会发现，iPhone X和3D视觉的出现将成为一个分界点——在这之后，曾经的苹果追随者们凭借深厚的技术实力底气尝试向苹果发出挑战，朝着更具差异化的方向生长。

推荐阅读

大疆的「二次」创业

登录查看更多

相关内容

关注 36

3D是英文“Three Dimensions”的简称，中文是指三维、三个维度、三个坐标，即有长、有宽、有高，换句话说，就是立体的，是相对于只有长和宽的平面（2D）而言。

大数据安全技术研究进展

专知会员服务

96+阅读 · 2020年5月2日

3D目标检测进展综述

专知会员服务

193+阅读 · 2020年4月24日

【南洋理工】三维深度学习医学图像处理综述，13页pdf，

专知会员服务

77+阅读 · 2020年4月6日

德勤：2020技术趋势报告，120页pdf

专知会员服务

192+阅读 · 2020年3月31日

2019年人工智能发展白皮书，中国科学院大数据挖掘与知识管理重点实验室，附47页pdf

专知会员服务

162+阅读 · 2020年2月27日

【德勤】中国人工智能产业白皮书，68页pdf

专知会员服务

310+阅读 · 2019年12月23日

视觉惯性SLAM综述

专知会员服务

87+阅读 · 2019年12月13日

【CV101,计算机视觉青年开发者技术与应用大会】联邦学习在计算机视觉的应用于展望，陈天健

专知会员服务

29+阅读 · 2019年11月19日

《工业互联网平台白皮书》（2019讨论稿），80页PDF，工业互联网产业联盟编

专知会员服务

76+阅读 · 2019年11月9日

《全球人工智能发展白皮书》（2019版）发布，94页PDF，德勤科技编

专知会员服务

230+阅读 · 2019年11月8日

最新！《2019 智能驾驶高精度地图行业研究报告》发布，19家巨头与初创公司如何定位行业？

新智驾

14+阅读 · 2019年6月17日

上海车展未来出行展区，带你了解自动驾驶等最潮科技｜厚势汽车

厚势

3+阅读 · 2019年4月26日

自动驾驶研发成本大变革！Apollo 开发套件解析出炉

无人机

10+阅读 · 2019年4月16日

期待已久的无人机开源视觉解决方案或许终于来了

无人机

5+阅读 · 2019年3月21日

对比激光SLAM与视觉SLAM：谁会成为未来主流趋势？

人工智能学家

8+阅读 · 2018年11月13日

千亿级室内定位市场，UWB定位技术能否站在金字塔尖？

物联网智库

5+阅读 · 2018年11月8日

鹰眼科技：3D视觉解决树脂塞孔检测难题

未来产业促进会

6+阅读 · 2018年6月10日

微软人工智能大会开幕，亮点众多

科技美学

4+阅读 · 2018年5月21日

为医生提供智能辅助诊断服务，慧影AI应用系统采用迁移学习法实现肺结节早期智能筛查

猎云网

8+阅读 · 2017年11月27日

小米Note3 ‖ 国产首款支持人脸解锁手机

机械鸡

4+阅读 · 2017年9月12日

Towards High-Fidelity 3D Face Reconstruction from In-the-Wild Images Using Graph Convolutional Networks

Arxiv

8+阅读 · 2020年3月12日

Self-Attention Graph Pooling

Arxiv

13+阅读 · 2019年6月13日

3D Backbone Network for 3D Object Detection

Arxiv

12+阅读 · 2019年1月24日

Multi-Task Feature Learning for Knowledge Graph Enhanced Recommendation

Arxiv

15+阅读 · 2019年1月23日

Learning Blind Video Temporal Consistency

Arxiv

3+阅读 · 2018年8月1日

Viewpoint Estimation-Insights & Model

Arxiv

3+阅读 · 2018年7月3日

End-to-end learning of keypoint detector and descriptor for pose invariant 3D matching

Arxiv

8+阅读 · 2018年5月9日

Iterative Visual Reasoning Beyond Convolutions

Arxiv

3+阅读 · 2018年3月29日

Temporal 3D ConvNets: New Architecture and Transfer Learning for Video Classification

Arxiv

8+阅读 · 2017年11月22日

An Iterative Co-Saliency Framework for RGBD Images

Arxiv

4+阅读 · 2017年11月4日

VIP会员