凝视行为是人类社会行为的一个重要方面,具有很强的研究意义,但针对该任务缺乏一个统一的解决框架。一个直观的解决方案是在现有的视线估计方法中加入一个目标检测分支。然而,现有的视线估计方法通常使用两个不同的网络来提取场景和头部图像中的特征,这将导致网络结构过于复杂并阻止每个分支的联合优化。
https://www.zhuanzhi.ai/paper/bc53529bc71e91a3504fa5162f10a186
为此,论文提出了一个名为GaTector的新框架,以统一的方式解决凝视对象的预测问题。首先本文提出了一个特定-一般-特定(SGS)的特征提取器,利用一个共享的主干来提取场景和头部图像的一般特征。针对不同子网络的特殊性,SGS在共享主干之前引入了两个特定的输入处理层,在共享主干之后引入了三个不同的输出处理层。然后,本文设计了一个新颖的散焦结构,在不丢失信息且无需额外计算量的前提下为目标检测任务生成特定的物体特征。此外,框架引入了能量聚集损失,对不同的子网络完成联合优化。最后,本文提出了一个新的mDAP指标,即使不同边界框之间没有重叠的区域,它也可以揭示不同边界框之间的差异。此框架在GOO数据集上进行的大量实验验证了本文的方法在目标检测、视线估计和凝视物体预测三个任务中的优越性。
CVPR全称IEEE国际计算机视觉与模式识别会议(IEEE Conference on Computer Vision and Pattern Recognition),该会议始于1983年,是人工智能、计算机视觉和模式识别领域的顶级会议。根据谷歌学术公布的 2021 年最新学术期刊和会议影响力排名, CVPR在所有学术刊物中位居第4(超越柳叶刀),仅次于Nature,NEJM和Science。