点击上方“CVer”,选择加"星标"或“置顶”
重磅干货,第一时间送达
作者:俞雨
https://zhuanlan.zhihu.com/p/112097446
本文已由原作者授权,不得擅自二次转载
自我介绍:俞雨,瑞士洛桑联邦理工学院(EPFL)博士,研究方向:视线估计,头部姿态估计。个人主页:
https://sites.google.com/view/yuyuvision/home
最近PhD毕业,赶上欧洲疫情爆发窝在家办公。趁手头工作不多正好总结一下我这三年在视线估计方面的工作。第一次在知乎写文章,如有错误求轻喷。
广义的Gaze Estimation 泛指与眼球、眼动、视线等相关的研究,因此我看到有不少做saliency和egocentric的论文也以gaze为关键词。而本文介绍的Gaze Estimation主要以眼睛图像或人脸图像为处理对象,估算人的视线方向或注视点位置, 如下图所示。
与人脸相关的领域比,gaze其实一直算一个小众的方向。这一点从顶会接收的论文数量就可以看出来。然而近些年随着数据和技术的发展,对gaze的需求渐渐浮出水面,这方面的研究也开始进入主流的视野。据我在ECCV bidding阶段的不完全统计,今年gaze相关的论文投稿达到了两位数(做大领域的大佬勿取笑)。目前,该领域的研究根据不同的场景与应用大致可分为三类,注视点估计、注视目标估计以及三维视线估计。这一部分内容会在以后的文章中展开介绍。
gaze作为反映人类注意力的行为,主要有如下应用。
游戏:通过估计gaze进行游戏的交互。这里有一个用Tobii眼动仪玩游戏的Demo:v.youku.com/v_show/id_X
VR:我去年在CVPR会场体验了Facebook的VR头盔,不得不感叹他们已将渲染效果做的如此科幻,不禁让人憧憬VR大规模应用的那天。然而现阶段VR的问题是全场景精细渲染对硬件要求较高导致硬件成本居高不下。如果能够通过头盔内置摄像头准确估计人的视线方向,则可以对场景做局部精细渲染,即仅对人注视范围内的场景精细渲染,从而大大降低硬件成本。
医疗:gaze在医疗方面的应用主要是两类。一类是用于检测和诊断精神类或心理类的疾病。一个典型例子是自闭症儿童往往表现出与正常儿童不同的gaze行为与模式。另一类是通过基于gaze的交互系统来为一些病人提供便利。如渐冻症患者可以使用眼动仪来完成一些日常活动。guancha.cn/society/2017
辅助驾驶(智能座舱):gaze在辅助驾驶上有两方面应用。一是检测驾驶员是否疲劳驾驶以及注意力是否集中。二是提供一些交互从而解放双手。
线下零售:我一直认为gaze在零售或者无人超市等领域大有可为,毕竟人的注意力某种程度上反映了其兴趣,可以提供大量的信息。但是我目前并没有看到相关的应用,包括Amazon Go。或许现阶段精度难以达到要求。我导师的公司倒是接过一个超市的项目,通过gaze行为做市场调研。但欧洲公司保密性较高,具体情况不得而知。
其他交互类应用如手机解锁、短视频特效等。
先列一下近些年在gaze领域较为活跃的几个团队,欢迎补充。其中ETH的Otmar Hilliges教授和东京大学的Yusuke Sugano教授也是我博士答辩的专家组成员。
- EPFL与Idiap的感知组:idiap.ch/~odobez/
首先安利下我们团队,同时安利下我们最近两年的一些工作:
Improving Few-Shot User-Specific Gaze Adaptation via Gaze Redirection Synthesis, CVPR 2019
Unsupervised Representation Learning for Gaze Estimation, CVPR 2020
A Differential Approach for Gaze Estimation, PAMI accepted 2019
- ETH交互组:ait.ethz.ch/people/hill
- 德国马普所交互组(好像老大跳槽了?):perceptualui.org/people
- 微软剑桥研究院的Erroll Wood:errollw.com/
- MIT Antonio Torralba组:web.mit.edu/torralba/ww
- 伦斯勒理工Qiang Ji组:ecse.rpi.edu/~qji/
- 东京大学Sugano组:yusuke-sugano.info/
- 北航Feng Lu组:phi-ai.org/default.htm
工业界方面,据我所知目前主力依旧在欧美。大公司,如Facebook Reality Lab(去年他们组织举办了第一届gaze相关的challenge,我们组在眼睛图片合成track中获得第二), 微软Hololens,谷歌广告,NVIDIA自动驾驶等团队都在致力于gaze方面的研究。而专注于gaze的中小型公司,龙头老大当属瑞典公司Tobii,其眼动仪已臻物美价廉之境。另外也可以关注下瑞士创业公司eyeware(给导师打一波广告):eyeware.tech/ ,专注于提供解决方案,跟国内一些大厂已开展合作。
国内做gaze的公司应该较少,我只了解到华为与商汤在做这方面的工作。
先写一个引子吧,如果有人感兴趣的话,后面会继续更新这几年gaze领域的发展和顶会上的一些工作。
[1] Recasens, A., Khosla, A., Vondrick, C., and Torralba, A. Where are they looking? NIPS 2015.
[2] Krafka, K., Khosla, A., Kellnhofer, P., and Kannan, H. Eye Tracking for Everyone. CVPR 2016
[3] Funes-Mora, K. A. and Odobez, J.-M. Gaze estimation in the 3d space using rgb-d sensors, towards head-pose and user invariance. IJCV 2016
推荐阅读
2020年AI算法岗求职群来了(含准备攻略、面试经验、内推和学习资料等)
重磅!CVer-学术微信交流群已成立
扫码添加CVer助手,可申请加入CVer大群和细分方向技术群,细分方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、TensorFlow、PyTorch、图神经网络等群。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲长按加群
▲长按关注我们
麻烦给我一个在看!