业界 | 借助内含500个摄像头的Panoptic Studio，CMU帮助计算机读懂肢体语言

2017 年 7 月 10 日 机器之心

选自eurekalert.org

机器之心编译

参与：乾树、黄小天

近日，卡内基梅隆大学在 eurekalert.org 上发表了一篇题为《A computer that reads body language》的文章，其中研究人员提出了一种新方法，可通过视频让计算机实时理解肢体语言，并追踪多个个体的身体姿势，包括面部表情和手势，甚至首次实现每个人手指动作的识别。

美国匹兹堡的卡内基梅隆大学机器人研究所人员通过视频使一台计算机实时地理解多个人的身体姿势和动作，甚至首次实现每个人手指动作的识别。这种新方法的诞生得益于全景工作室（Panoptic Studio），一个内置 500 个视频摄像头的两层楼高的圆顶建筑。借助该设施，研究人员现在可用一台照相机和笔记本电脑来检测一群人的姿势。

机器人学副教授 Yaser Sheikh 说，这些用于追踪人类二维形态和运动的方法，为人们和机器之间的交互开辟了新途径，并让人们使用机器来更好地了解周围的世界。例如，识别手势的能力将使人们能够以新的和更自然的方式与计算机进行交互，比如仅通过一个指向动作来与计算机进行交流。

检测个体之间非语言沟通的细微差别的能力，将使机器人能够服务于社交场所，感知周围的人在做什么，了解其正处于何种情绪状态，以及可否被打断。一辆自动驾驶汽车可通过监测肢体语言而获得预警：一位行人即将进入街道。这一帮助机器理解人类行为的新技术还可为诸如自闭症、阅读障碍和抑郁症等疾病的行为诊断和康复提供新方法。

「我们的肢体交流几乎和说话一样多，」Sheikh 说。「但计算机多少有些盲目。」在运动分析中，实时的姿势检测将使计算机不仅能够追踪每一位运动员在赛场上的位置（这已成为现实），而且还能了解运动员在每一个时间点手臂、腿和头部的姿势。这些方法可以用于现场直播或录播。

为了鼓励更多的研究和应用，研究者们已经开源了他们的用于多人和手势评估的代码。Sheikh 说，他们的代码已经被研究团体广泛使用，而且包括汽车公司在内的 20 多家商业集团已经表现出买断该技术的兴趣。

Sheikh 及其同事在 7 月 21-26 日檀香山举办的 2017 计算机视觉与模式识别大会（CVPR）上就多人和手势检测算法做了报告。实时跟踪多人，特别是在其可能存在社交关系的情况下，面临着诸多挑战。仅仅使用追踪个体姿势的程序在应用于群体中的每个个体时，尤其是在这个群体变大时，效果不佳。Sheikh 及其同事采用了一种自下而上的方法，首先将所有身体部位都放在一个场景中——手臂、腿、脸等——然后将这些部位与特定的个体联系起来。

手势检测难度更大。当人们用手握住物体并做手势时，照相机不太可能同时看到手的所有部分。与脸部和身体不同的是，大型数据集不存在由部位和位置的标签标注的手势图像。但是对于每一个只显示部分手势的图像而言，从一个完全不同或互补的角度来看，往往存在着另一个图像，机器人学博士生 Hanbyul Joo 说。这就是研究人员利用卡内基梅隆大学的多摄像头全景工作室的原因。

「一次拍照能让你从 500 个角度看一个人手，而且自动注解手的位置，」Joo 解释道。「但是人手相对其他部位较小，以至于我们的大多数摄像头无法为其做注解。因此，对于这项研究，我们只使用了 31 个高清摄像机，但仍然能够构建一个庞大的数据集。」

Joo 与另一个博士生 Tomas Simon 用他们的手生成了数千张视图。「全景工作室推进了我们的研究，」Sheikh 说。目前工作室正通过联合训练来改善身体、面部和手部探测器。此外，随着工作从人类的二维模型转移到三维模型，该设备自动生成注释图像的能力将是至关重要的。

Sheikh 说，十年前，该全景工作室在美国国家科学基金会（NSF）的支持下建成时，还不清楚它会产生什么样的影响。「我们现在之所以能够突破一些技术壁垒，主要是因为 NSF 在 10 年前的资助，」他补充说。「我们正在开源代码，以及全景工作室拍摄的所有图像数据。」