Facebook Oculus实验室实习生：手势估计最新综述

2019 年 3 月 12 日 专知

【导读】如果你经常看科幻电影的话，那你一定对于能够使用手势或动作控制的电脑设备并不陌生。一挥手、一个响指就能够让你的电脑乖乖的按照你的想法工作。而在未来，手势将和语音识别一同成为最自然的交互方式，未来将成为主流。近日，美国印第安纳大学伯明顿分校博士生Bardia Doosti 发表手势估计综述论文详细介绍基于深度学习进行手势估计的最新方法，包括基于深度的方法和基于图像的方法。此外文中还详细列举了21种常见的手势数据集。值得一提的是作者同时也在Facebook Reality Labs，这个实验室的前身就是大名鼎鼎的Oculus Research。

2018年05月08日Oculus宣布将研发实验室Oculus Research重新命名为Facebook Reality Labs (FRL)。Oculus指出，名称变更是为了更好地反映出研发在AR/VR中越来越重要的作用，同时强调实验室与Facebook其他部门的合作。Oculus首席科学家迈克尔·亚伯拉什对此表示，这将能帮助实验室“更加快速地”开发尖端AR/VR技术。

题目：Hand Pose Estimation: A Survey

作者：Bardia Doosti

【摘要】深度卷积神经网络(CNNs)近年来在几乎所有计算机视觉任务中的成功，以及低成本消费者深度相机的普及，使得手势估计成为计算机视觉领域的一个热门话题。在这篇报告中，我们将首先解释手部姿态估计问题，并回顾解决这个问题的主要方法，特别是使用深度maps或RGB图像的两个不同的问题。我们将调研每个领域中最重要的论文，并讨论各自的优缺点。最后，我们将详细解释这个领域中最大的数据集，并列出21个数据集及其所有属性。据我们所知，这是手势估计领域中所有数据集最完整列表。

参考链接：

https://arxiv.org/abs/1903.01013

请关注专知公众号（点击上方蓝色专知关注）

后台回复“手势估计综述” 就可以获取最新论文的下载链接~

引言

手势估计是目前计算机视觉领域研究的热点。自深度学习发明以来，研究者们开始将其应用于计算机视觉的各个领域，并取得了突破性的成果，手的姿态估计也不例外。此外，制作深度图的RGBD相机已经变得便宜，这降低了制作和使用手持式系统的成本。另一方面，谷歌、微软、Facebook等大型科技公司在增强现实(AR)、虚拟现实(VR)和混合现实(MR)技术上的巨额投资，作为新型的交互式个人电脑，拓宽了该领域的应用范围。因此，引入了人机交互（HCI）中的一个相对较新的分支来研究通过理解用户的手来控制的系统。

图1. 手势估计在AR/VR头盔中对显示对象进行控制的应用。

近年来，人们对手指控制系统的兴趣让研究人员更加雄心勃勃，他们放弃了2.5D的深度地图图像，试图用一张RGB图像来估计手部姿势。这种方法比较困难，需要大量的数据来训练。下面，文章将首先解释手部姿态估计问题并讨论它的变化，接下来将讨论解决这个问题的不同方法。在本文的最后，我们将简要地研究该领域的新数据集，并将看到数据集的大小如何随着时间的推移发生了巨大的变化。

Hand Pose Estimation Problem 手势估计问题

手势估计是将人手建模为一组部分(如手掌和手指)，并在手的图像中找到它们的位置(二维估计)或在三维空间中模拟手的位置的过程。虽然也可以用指骨来估计手的位置(如[49]，[55]中讨论的strawberryfg方法)，但在最近的文献中，几乎所有的手都被建模为若干个关节，其任务相当于找到这些关节的位置。然后我们可以用这些关节来估计真实的手部姿势。图2显示了一幅使用连接线的关节模型进行手部姿态二维和三维估计的图像。

图2. (a)手关节二维估计的图像 (b)手关节三维估计

图3显示了三个流行的手部数据集中不同数量的关节。

方法

在深度学习革命之前，人们习惯于将传统的机器学习和计算机视觉技术应用于手部姿态估计。一般分为基于检测的方法与基于回归的方法。在基于检测的方法中，模型为每个节点生成一个概率密度图。基于回归的方法试图直接估计每个关节的位置。

传统上，基于深度图的方法是手势估计的主要方法。下面介绍几个比较有代表性的方法。

图5. 基于检测的算法的输出。对于手中的每个关节，将生成一个概率密度函数，该函数被描述为热图（heatmaps）。

图6. Sinha et al.的多网络手部姿态估计。

图7. Baek et al.的基于GAN的网络架构。图中与成对集P和未成对集U的相互作用分别用红色和绿色表示，蓝色的线表示与U和P的相互作用。

图8. Ge et al.的工作。

图9. 采用3D CNN作为编码器和解码器的V2V-PoseNet网络体系结构。

图10. 利用基于检测的网络PoseNet估计二维位姿和基于回归的网络PosePrior估计三维手部位姿的PoseNet网络结构。

图11. Simon et al.的三角测量、投射和再训练步骤的论文。

图12. Mueller et al.的数据集生成和手部姿态估计的不同步骤的论文。

图13. Dibra et al.的不同阶段的三维手部姿态估计算法。

图14. FuseNet架构中的两个不同的流。

数据集

在本节中，作者将解释一些在手部姿态估计中使用的最重要的数据集，并详细讨论它们的属性。您还可以在表5中找到20个手部数据集的列表，这是手部姿态估计领域所有数据集的最完整的列表。

结论

在这篇综述中，作者提出了手势估计问题，并详细说明了解决这一问题的主要方法。作者也回顾了这一领域的一些最新应用。由于每个数据驱动方法首先都需要足够的数据，所以文章详细讨论了主要数据集，并列出了该领域中所有数据集及其最重要的属性。作者展示了这个领域是如何在短短几年里发展起来的，从完全控制的情况下使用彩色手套到使用一个RGB图像的3D手部姿态估计。虽然本文讨论的论文在这些数据集上得到了很好的结果，但在实际问题中并没有得到令人满意的结果。最重要的是，大多数这些系统的结果都比简单的最近邻基线nearest-neighbor baseline [55]差。然而，由于大型技术公司在这一领域的兴趣，也许在不久的将来，我们会看到更大、更通用的数据集，因此即使是在一个RGB图像上，模型的性能也会非常好。如果我们实现了这项技术，使用AR/VR设备作为我们的新PC，在空中打字，用手指在显示屏上控制物体将不会遥不可及。

参考链接：

https://arxiv.org/abs/1903.01013