苹果 Animoji 表情背后:面部识别技术如何一步步进化的?

2017 年 11 月 8 日 MOOC

| 全文共3545字,建议阅读时长4分钟 |

转载自公众号:沉浸感

微信号:vrleiphone


Animoji


沉浸感发现,几年前,苹果公司进行了一波疯狂收购,3-D 传感器制造商 PrimeSense、图像识别公司  Perceptio、增强现实公司 Metaio 和 运动捕捉技术公司 Faceshift 被苹果统统收入麾下。


通过购买其他公司的技术来提升自己并不是苹果的常规操作。那时,大家都不理解苹果这么做意图何在,直到上个月的苹果发布会,我们才明白它几年来的疯狂收购和研究的意义是什么——苹果是在构建 iPhone X。


而这款跨时代的机型中最重要的新功能可能就是人脸解锁和定制表情(Animoji)以及其背后的人脸追踪技术。苹果认为 iPhone X 代表了移动设备技术的未来,目前从很多方面来看,事实确实如此。沉浸感觉得,如果去追溯面对消费者的重大科技进步,你会发现大多数技术突破都是在无聊的大学实验室里产生的。而在Animoji 的例子中,技术研究是从十年前一些欧洲顶级科技类高校里开始的。


技术的开端


《阿凡达》工作照


2005 年左右,运动捕捉技术仍处在实验室阶段。用《阿凡达》举例,要想制作人物角色细微的表情和动作,需要演员穿上带有小球的衣服,并在面部涂上标记点。这些小点作为标记,帮助光学系统追踪面部和身体的动作变化,最终模拟出电影的动态效果。“标记点非常有用,因为它们简化了运动追踪的计算。”Faceshift 的联合创始人 Mark Pauly 解释道(Pauly 还是瑞士洛桑  EPFL 大学计算图形和几何实验室的主管)。



标记点技术十分有用,但是需要使用大量设备——一个工作站、运动捕捉套件、演员还需要全身穿着标记点。Pauly 实验室的博士生 Hao Li(目前是 USC 的视觉图像实验室主管)说:“无论你想制作什么,这种技术所要花费的时间和成本都太高了。我们想要把它变得简单一些。”


所以,Pauly、Li 和其他一些研究者们(包括 Thibaut Weise,、Brian Amberg 和 Sofien Bouaziz,他们目前都就职于苹果),开始探索如何使用深度感应相机的长镜头来代替点标记和运动捕捉套件,完成面部表情追踪。他们的目标是制作可以实时捕捉人类表情的动态数字头像。


但是这里的问题在于:人脸跟踪算法是出了名的复杂。Li 把人脸称为“图形运算中的圣杯”,因为人脸运算实在太难。不同于静态物体,人脸总是持续变化,因此没有一个普遍的运算法则可以通用。


让机器读懂表情


为了让机器可以识别出面部运动,必须让它看懂形式各异的人脸。“算法必须对变幻的光线、头部的旋转、人种和年龄方面同的形态标准等保持其稳定性。”专攻汽车和金融领域的面部追踪软件公司 Visage Technologies 的市场主管 Dino Paic 解释道。


在 2005 年前,3-D 深度感应相机的发展已经足以捕捉面部动作。但是更大的挑战在于教会计算机如何理解捕获到的数据。Li 说:“这里的问题是,即使你可以看到所有点的数据,但这对于计算机来说,毫无意义。”


为了解决这一问题,Li 和他的团队将人脸当作几何图形来求解。他们使用大量面部表情来不断训练算法,创建大量可以被描述出的数字 3-D 模型,进而描绘出不同人种、不同环境下的人脸模型。利用这些计算好的模型,算法就可以更容易地自动匹配面部 3-D 标记点,实现实时捕捉面部表情,创建模拟头像。


脸的价值


Pinscreen 此前恶搞川普的图片


目前,视觉特效公司大都在产品制作中使用原有技术,但是这个主流将会被新技术所取代,相信过不了多久,像苹果的 Animoji 和 英特尔的“Pocket Avatars”(可以将你的脸植入进各种图像中)这种使用面部识别软件的应用将会越来越多。


Li 说,面部模仿的 emoji 表情还只是一个开始。他现在正在运作一个专注于图形拟真计算的创业公司——Pinscreen,他们最近正在研究一个基于单源照片的超现实 3-D 头像的算法。


去年秋天的总统大选后,Pinscreen 放出了一系列“跳舞的川普”GIF 图,展示了它目前的技术能力。这组 GIF 还不是最为复杂的——川普的脸还有一些 CGI (电脑三维动画)产品遗留的模糊感。但是他们已经为未来的发展奠定了基石。我们相信,未来任何人都可以创建出一个现实感的头像,通过头像说话和动作。Pinscreen 的技术仍在测试中,但它的发展潜力可能既令人激动,又隐隐有些担忧。


担忧的是:随着这种技术的发展和不断应用,现在还能分清现实和虚拟的区别的我们,不久以后,可能越来越难以区分真假了。


via wired.com 沉浸感编译 


有缘的人终会相聚,慕客君想了想,要是不分享出来,怕我们会擦肩而过~

《预约、体验——新维空间站》

《【会员招募】“新维空间站”1年100场活动等你来加入》

有缘的人总会相聚——MOOC公号招募长期合作者

《【调查问卷】“屏幕时代,视觉面积与学习效率的关系“——你看对了吗?》


产权及免责声明 本文系“MOOC”公号转载、编辑的文章,编辑后增加的插图均来自于互联网,对文中观点保持中立,对所包含内容的准确性、可靠性或者完整性不提供任何明示或暗示的保证,不对文章观点负责,仅作分享之用,文章版权及插图属于原作者。如果分享内容侵犯您的版权或者非授权发布,请及时与我们联系,我们会及时内审核处理。


了解在线教育,
把握MOOC国际发展前沿,请关注:
微信公号:openonline
公号昵称:MOOC

 

登录查看更多
1

相关内容

CVPR 2020 最佳论文与最佳学生论文!
专知会员服务
36+阅读 · 2020年6月17日
 【SIGGRAPH 2020】人像阴影处理,Portrait Shadow Manipulation
专知会员服务
29+阅读 · 2020年5月19日
基于视觉的三维重建关键技术研究综述
专知会员服务
164+阅读 · 2020年5月1日
AI情绪识别技术背后:一场悄然来袭的“暴政”
大数据文摘
7+阅读 · 2018年10月11日
苹果首次披露Siri声纹识别技术
AI前线
6+阅读 · 2018年4月17日
微表情检测和识别的研究进展与趋势
中国计算机学会
15+阅读 · 2018年3月23日
Arxiv
5+阅读 · 2019年2月28日
Arxiv
5+阅读 · 2018年12月18日
Arxiv
5+阅读 · 2018年5月22日
Arxiv
7+阅读 · 2018年1月30日
VIP会员
相关VIP内容
CVPR 2020 最佳论文与最佳学生论文!
专知会员服务
36+阅读 · 2020年6月17日
 【SIGGRAPH 2020】人像阴影处理,Portrait Shadow Manipulation
专知会员服务
29+阅读 · 2020年5月19日
基于视觉的三维重建关键技术研究综述
专知会员服务
164+阅读 · 2020年5月1日
Top
微信扫码咨询专知VIP会员