汤晓鸥纵论商汤AR:AI驱动发力已超3年,落地多个场景

2019 年 10 月 16 日 商汤科技
编者按:如果说AI让我们更好地理解世界,那么AR则让虚拟和现实完美融合。10月14日至18日,增强现实与混合现实领域的国际顶尖学术会议ISMAR首次在中国举办,全球AR领域研究专家、学者及技术人员相约北京,探讨混合现实与增强现实领域的最新研究成果和发展方向。商汤科技创始人、香港中文大学教授汤晓鸥带来主题分享:《AI+AR:Magic in the AIR》,AI+AR将会演绎怎样一段神奇魔法?AI新媒体量子位(公众号ID:QbitAI)对此进行了全方位报道,商汤君在这里分享给大家。


商汤AR,AI驱动,已经落地多个场景。


商汤科技创始人、香港中文大学教授汤晓鸥在本次ISMAR 2019对外披露商汤最新AR研究进展与布局,他还进一步介绍了当前AR在各大领域遇到的挑战,以及相应的解决办法和核心技术。


在他看来,AR正当时:今天的AI技术已经能让我们更好地理解这个现实世界,而AR技术可以将现实世界和虚拟世界无缝融合起来。


不仅仅只是他有这样的感受。


当前苹果、谷歌,都在重兵囤下AR生态开发,高通等基础算力提供方,也认为5G正在加速新计算平台的到来——且认为是AR。商汤也已经布局多年,汤教授说:近年来将AI和AR技术深度融合到产品的研发中,有效扩展了AR应用的想象空间。

那么,商汤到底是如何布局的?又有哪些核心技术与亮点?一起来看看~

  汤晓鸥纵论AR


汤教授演讲以AI+AR: Magic in the AIR为主题展开。简单开场之后,就直接切入了正题——AI如何+AR?



在他看来,AR是一种在现实生活场景中无缝整合虚拟物体或信息的技术。与传统的文本、图片和视频相比,能够更有效、直观地提供信息。AI技术,能够将现实世界的信号作为输入,来实现场景感知、语音交互、图像识别、人脸检测、情感认知等任务,现在已经成熟。



再加上大数据、云计算和5G等技术的发展落地,就形成了基础技术框架。AR正是这一基础框架的应用,也是这些技术的直接落脚点。现在,伴随着这些技术的成熟和落地,AR也开始进入我们的生活,从黑科技向日常应用转变。


和之前大多数汤教授发言不同,这次演讲才刚刚开始,他就祭出了自己钟爱的电影《花样年华》,直观地展示了AR+AI带来的“神奇魔法”,也引起现场一片惊呼。



接下来,AR化妆是汤教授在演讲中提到的第一个场景。这一场景中,最核心的如何捕捉面部特征。他说,在人脸识别、3D人脸重建和人脸编辑等许多人脸应用中,这是至关重要的一步。



自然挑战也有不少。比如没有足够的特征点、缺乏精确的数据、在遮挡、运动模糊等情况下很难预测等等。


对于这些挑战,汤教授也都介绍了相应的解决思路:可以通过虹膜轮廓特征点和耳朵特征点,来补充特征点。至于缺乏数据以及遮挡、运动模糊等情况,可以用半监督框架、结构感知的去模糊网络等方式来解决。



AR导航,这也是AR落地非常难的一个场景。汤教授提到传统的导航方案,比如GPS以及WiFi、蓝牙等虽然普及,但都存在各种各样的缺点,比如误差大于10米、室内无法用(GPS);硬件成本贵、需要附加部署等(WiFi、蓝牙)。


相比之下,视觉解决方案有不少优点,成本低,而且精度高,效果也比较直观等等。但也有挑战,比如很难应对缺乏视觉特征、环境变化的情况,以及需要繁重的计算等。


不过,这并没有阻拦AR导航成为一种新风向。在基于学习的视觉特征、云端协作、同时定位与地图构建(SLAM)等技术的基础上,稀疏地图重建、密集地图重建和视觉定位等相关应用愈发成熟。



然后是AR数字人,这也是近年来最为热门的AR应用之一。简单来说,AR数字人就是利用AI技术来驱动数字智能体说话与行动。



但想要让它变得实用,还有不少挑战,比如音频到3D映射非常困难、如何保持连贯性等等。汤教授同样也给出了相应的思路,采用跨模态机器学习、连续的时间序列建模等方法,能够比较好的解决这些问题。商汤也已经交付了相应的解决方案——SenseAR Avatar



汤教授介绍,借助弱监督学习、基于视图合成的几何感知表示、基于图像的排序预测等技术,可以有效地完成动作捕捉、3D动作恢复以及动作传递。


接下来是AR游戏,背后的关键技术也是同时定位与地图构建(SLAM)。



与当前大多数AR游戏不同,商汤发力的是移动端上的多人AR游戏,这也带来了新的挑战——怎么让多个用户都能参与进来。汤教授表示,想要实现这一点并不容易。不仅要在充满挑战性的环境中保持稳定,还要考虑到大规模场景中移动设备的性能。


作为AR中的关键技术,商汤在SLAM上也投入了大量的资源,而且与当前的传统方案相比,不仅效率更高,而且也更加稳定。他也给出了相应的数据,在支撑多人AR游戏的时候,定位时间少于1秒。



汤教授谈到的最后一个场景,是AR尺子&AR家居这也是SLAM技术应用落地的重要方向,但这个方向对精度的要求极高。汤教授提到商汤的RGBD-SLAM技术能够在计算资源有限的情况下,支持长距离测量,而且平均测量误差为2.60%。



在AR家居场景中,借助RGB摄像头与IMU的紧密耦合,将分级误差控制在3%,并且能够进行稳定追踪。虽然这些场景,已经覆盖了大家生活中的许多方面。但这些并不是仅仅只是“Magic in the AIR”的开端,在他看来,AI+AR还有更多的可能性。



可以设想一下,物理世界大规模3D数字化、人类行为数字化之后,会发生什么?


  商汤发力AR已三年,边界正扩张


汤教授今天所展现的,并不仅仅只是学术研究,而是商汤实践多年的经验总结。2016年,AR游戏Pokemon GO风靡全球,进一步引爆AR应用潮流。在这一年,商汤就已经开始发力AR,将AI技术应用到AR产品的研究和开发之中,打造出了SenseAR特效引擎。具体的发展思路和当初发力AI技术一样,也是“产学研”相结合



一方面,与浙江大学共建“浙江大学-商汤三维视觉联合实验室”,重点研究SLAM和三维重建等方向,另一方面推动学术和产业界共同成立了“中国增强现实核心技术产业联盟”。


与此同时,相应AR产品也陆续问世。2018年,商汤AI峰会上SenseAR特效引擎和SenseAR开发者平台率先登场,迎来新一轮能力升级。之后,商汤众多AR应用也相继落地,比如AR美颜、AR贴纸特效等等,开始被业内各大公司采用,比如OPPO等。


今年5月15日,2019年商汤AI峰会举办。AR领域压轴出场,对SenseAR 特效引擎和SenseAR平台都进行了大幅度升级。尤其是后者,增加了SenseAR Glass眼镜平台、SenseAR Cloud云平台等功能。在打破云端界限、结合虚拟与现实世界、完成空间内的多人共享、 虚拟信息持久化等方面向前迈出了一大步。

此外,还有SenseAR Avatar,这是当前市场上首个可以实现照片生成和真人驱动的AR产品,能够利用3D渲染对用户面部进行重建,从而建立一个实时的虚拟形象。


从技术、应用、平台等各个方面来看,商汤的AR已然形成相应规模,已经与谷歌和苹果一起,成为市场上主要的AR平台供应商之一。而在本次ISMAR 2019大会上,商汤方面并不只是仅仅有汤教授演讲,还展示了一系列创新的AR应用。


活动中,商汤带来了可实现室内外定位和AR导航的“SenseAR高精定位和内容增强解决方案”。并赞助了专为AR应用设计的SLAM竞赛,基于商汤科技与浙江大学联合发布的测试数据集,来全面地评估SLAM系统在AR应用下的性能。从整体上来看,这不仅仅是商汤AR的进一步展示,也是其加码AR领域的决心显现。


在汤老师演讲的最后,他也给出了对AR未来的展望。AI+AR的未来,就是要实现数字世界和物理世界的无缝融合,能够更聪明、更深入地了解人们生活和工作的方方面面。这个时候,Magic in the AIR也必然到来。但到了这个时候,这也就不是Magic in the AIR,而是Oxygen in the AIR了。


你觉得呢?


精彩回顾

《商汤科技首秀ChinaJoy,“3D AR”来了!》 

《5G时代AR玩法图鉴 》

《商谈丨首个面向AR的SLAM数据集和基准发布 十二问解密背后的故事 》

《<一起来捉妖>手游上线 商汤AR黑科技摇身变“显灵宝器” 

手机变身万能尺子 商汤算法加持OPPO R17 Pro实现“AR测量” 》

《骨灰级路痴如何找回方向感?商汤科技联合OPPO打造AR导航神器 》


登录查看更多
0

相关内容

增强现实(Augmented Reality,简称 AR),是一种实时地计算摄影机影像的位置及角度并加上相应图像的技术,这种技术的目标是在屏幕上把虚拟世界套在现实世界并进行互动。
《人工智能2020:落地挑战与应对 》56页pdf
专知会员服务
195+阅读 · 2020年3月8日
阿里巴巴达摩院发布「2020十大科技趋势」
专知会员服务
106+阅读 · 2020年1月2日
2019年人工智能行业现状与发展趋势报告,52页ppt
专知会员服务
121+阅读 · 2019年10月10日
商汤新青年访谈录丨AR爆款应用背后的故事
商汤科技
11+阅读 · 2019年3月14日
大伽「趣」说AI:腾讯云在多个场景中的AI落地实践
人工智能头条
4+阅读 · 2018年8月1日
京东与斯坦福达成战略合作 携手推进AI研究
京东大数据
3+阅读 · 2017年11月28日
王海峰首谈百度AI战略布局(PPT)
新智元
3+阅读 · 2017年9月15日
2017人工智能创新公司50强出炉 旷视(Face++)上榜
Megvii旷视科技
3+阅读 · 2017年7月10日
领英发布《全球AI领域人才报告》,揭示全球AI人才图谱
微软研究院AI头条
3+阅读 · 2017年7月10日
Efficiently Embedding Dynamic Knowledge Graphs
Arxiv
14+阅读 · 2019年10月15日
Explanatory Graphs for CNNs
Arxiv
4+阅读 · 2018年12月18日
Arxiv
13+阅读 · 2018年4月6日
Arxiv
3+阅读 · 2018年3月29日
VIP会员
Top
微信扫码咨询专知VIP会员