视线估计(Gaze Estimation)简介(一)：概述

会员服务 ·

视线估计(Gaze Estimation)简介(一)：概述

2020 年 3 月 18 日 CVer

点击上方“CVer”，选择加"星标"或“置顶”

重磅干货，第一时间送达

作者：俞雨

https://zhuanlan.zhihu.com/p/112097446

本文已由原作者授权，不得擅自二次转载

自我介绍：俞雨，瑞士洛桑联邦理工学院（EPFL）博士，研究方向：视线估计，头部姿态估计。个人主页：

https://sites.google.com/view/yuyuvision/home

最近PhD毕业，赶上欧洲疫情爆发窝在家办公。趁手头工作不多正好总结一下我这三年在视线估计方面的工作。第一次在知乎写文章，如有错误求轻喷。

简介

广义的Gaze Estimation 泛指与眼球、眼动、视线等相关的研究，因此我看到有不少做saliency和egocentric的论文也以gaze为关键词。而本文介绍的Gaze Estimation主要以眼睛图像或人脸图像为处理对象，估算人的视线方向或注视点位置，如下图所示。

与人脸相关的领域比，gaze其实一直算一个小众的方向。这一点从顶会接收的论文数量就可以看出来。然而近些年随着数据和技术的发展，对gaze的需求渐渐浮出水面，这方面的研究也开始进入主流的视野。据我在ECCV bidding阶段的不完全统计，今年gaze相关的论文投稿达到了两位数（做大领域的大佬勿取笑）。目前，该领域的研究根据不同的场景与应用大致可分为三类，注视点估计、注视目标估计以及三维视线估计。这一部分内容会在以后的文章中展开介绍。

应用

gaze作为反映人类注意力的行为，主要有如下应用。

游戏：通过估计gaze进行游戏的交互。这里有一个用Tobii眼动仪玩游戏的Demo：v.youku.com/v_show/id_X

VR：我去年在CVPR会场体验了Facebook的VR头盔，不得不感叹他们已将渲染效果做的如此科幻，不禁让人憧憬VR大规模应用的那天。然而现阶段VR的问题是全场景精细渲染对硬件要求较高导致硬件成本居高不下。如果能够通过头盔内置摄像头准确估计人的视线方向，则可以对场景做局部精细渲染，即仅对人注视范围内的场景精细渲染，从而大大降低硬件成本。

医疗：gaze在医疗方面的应用主要是两类。一类是用于检测和诊断精神类或心理类的疾病。一个典型例子是自闭症儿童往往表现出与正常儿童不同的gaze行为与模式。另一类是通过基于gaze的交互系统来为一些病人提供便利。如渐冻症患者可以使用眼动仪来完成一些日常活动。guancha.cn/society/2017

辅助驾驶（智能座舱）：gaze在辅助驾驶上有两方面应用。一是检测驾驶员是否疲劳驾驶以及注意力是否集中。二是提供一些交互从而解放双手。

线下零售：我一直认为gaze在零售或者无人超市等领域大有可为，毕竟人的注意力某种程度上反映了其兴趣，可以提供大量的信息。但是我目前并没有看到相关的应用，包括Amazon Go。或许现阶段精度难以达到要求。我导师的公司倒是接过一个超市的项目，通过gaze行为做市场调研。但欧洲公司保密性较高，具体情况不得而知。

其他交互类应用如手机解锁、短视频特效等。

相关团队与公司

先列一下近些年在gaze领域较为活跃的几个团队，欢迎补充。其中ETH的Otmar Hilliges教授和东京大学的Yusuke Sugano教授也是我博士答辩的专家组成员。

- EPFL与Idiap的感知组：idiap.ch/~odobez/

首先安利下我们团队，同时安利下我们最近两年的一些工作：

Improving Few-Shot User-Specific Gaze Adaptation via Gaze Redirection Synthesis, CVPR 2019
Unsupervised Representation Learning for Gaze Estimation, CVPR 2020
A Differential Approach for Gaze Estimation, PAMI accepted 2019

- ETH交互组：ait.ethz.ch/people/hill

- 德国马普所交互组（好像老大跳槽了？）：perceptualui.org/people

- 微软剑桥研究院的Erroll Wood：errollw.com/

- MIT Antonio Torralba组：web.mit.edu/torralba/ww

- 伦斯勒理工Qiang Ji组：ecse.rpi.edu/~qji/

- 东京大学Sugano组：yusuke-sugano.info/

- 北航Feng Lu组：phi-ai.org/default.htm

工业界方面，据我所知目前主力依旧在欧美。大公司，如Facebook Reality Lab（去年他们组织举办了第一届gaze相关的challenge，我们组在眼睛图片合成track中获得第二），微软Hololens，谷歌广告，NVIDIA自动驾驶等团队都在致力于gaze方面的研究。而专注于gaze的中小型公司，龙头老大当属瑞典公司Tobii，其眼动仪已臻物美价廉之境。另外也可以关注下瑞士创业公司eyeware（给导师打一波广告）：eyeware.tech/ ，专注于提供解决方案，跟国内一些大厂已开展合作。

国内做gaze的公司应该较少，我只了解到华为与商汤在做这方面的工作。

先写一个引子吧，如果有人感兴趣的话，后面会继续更新这几年gaze领域的发展和顶会上的一些工作。

[1] Recasens, A., Khosla, A., Vondrick, C., and Torralba, A. Where are they looking? NIPS 2015.

[2] Krafka, K., Khosla, A., Kellnhofer, P., and Kannan, H. Eye Tracking for Everyone. CVPR 2016

[3] Funes-Mora, K. A. and Odobez, J.-M. Gaze estimation in the 3d space using rgb-d sensors, towards head-pose and user invariance. IJCV 2016

重磅！CVer-学术微信交流群已成立

扫码添加CVer助手，可申请加入CVer大群和细分方向技术群，细分方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、TensorFlow、PyTorch、图神经网络等群。

一定要备注：研究方向+地点+学校/公司+昵称（如目标检测+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群