真能“穿墙识人”，MIT人体姿态估计系统创历史最高精度！

2018 年 6 月 13 日 新智元

新智元报道

来源：MIT CSAIL

编辑：闻菲、肖琴

【新智元导读】MIT计算机与人工智能实验室的研究人员开发了一种基于Wi-Fi的人体姿态估计系统，用AI教会Wi-Fi“穿墙透视”，隔着墙也能进行精确的人体姿态估计。

人体姿态估计是计算机视觉研究中的一个重要课题，在生活中也有着广泛的应用场景，比如安防、自动驾驶、智能家居等等。不过，在实际应用中，基于视觉或者说基于可见光的人体姿态估计有一个重大的局限，那就是障碍物遮挡——光线无法穿透书柜、墙壁等不透明的物体，如果身体被遮挡就无法去估计。

在一项最新的研究中，MIT人工智能实验室（MIT CSAIL）团队，设计了一个基于Wi-Fi的人体姿态估计系统，能够穿透墙壁进行精确的人体姿态估计，取得了Wi-Fi人体姿态识别的历史最高精度。这项工作大大拓宽了人体姿态估计系统的适用范围，有很强的应用价值。

相关的研究论文已经被CVPR 2018接收，作者是Dina Katabi教授和她的博士生赵明民(论文第一作者)、MIT教授Antonio Torralba、博士后Mohammad Abu Alsheikh、博士生黎天鸿、田永龙和赵行。他们将CVPR 2018上展示这项工作。

MIT CSAIL最新研发的Wi-Fi人体姿态估计系统，能够穿墙透视。来源：MIT CSAIL

穿墙透视，用Wi-Fi识别人体姿态

人体姿态估计，就是将一幅图像或一段视频中，人的头、手、躯干和腿部关节点位置恢复出来，做出一个由关节点构成的骨架（见下图）。

MIT的WiFi人体姿态估计系统，在人走到墙后时也能提取关键点，生成人体姿态关节点骨架。最上面一行是RGB图，中间是置信点图，最下面一行就是关节点骨架。来源：MIT CSAIL

当有遮挡物存在时，过去常用的方法是推断，也即设计算法根据看得见的部分去推测被遮挡的身体部分的情况。但是，由于人体是在不断在运动的，推断很容易出错。此外，当一个人完全被遮挡，比如说走到一堵墙的后边时，这种方法就行不通了。

MIT CSAIL的团队提出了一种完全不同的解决方案。他们的出发点很简单：如果可见光会被这些障碍物阻挡，那么就改用其他信号。无线信号，比如Wi-Fi，就能穿透墙壁，而且Wi-Fi还有一个好处是会被人体反射，非常适合用来进行“穿墙”人体追踪。

但是，过去的Wi-Fi系统虽然能穿墙找到人的位置，或者生成一个大致的轮廓，结果还是比较粗糙的，远远没有达到视觉人体姿态估计系统的精细程度，没有对人体关节部位进行准确定位。

为了解决无线信号精度低的问题，这一次研究人员使用了“AI教学”的方法。他们训练了一个神经网络，让这个神经网络从无线信号中学习并估计人体姿态。

AI教学，青出于蓝而胜于蓝

不过，这里又遇到了一个难点，就是如何为这个神经网络提供训练样本。基于图片或视频的人体姿态识别系统，训练样本可以由人手工来标注。但在训练基于无线信号的神经网络时，这个方法就行不通了，因为人看不见Wi-Fi信号，也无法从无线信号中看出人的姿态，更无从教会神经网络了。

“我们的解决方法是跨形态的监督学习。”研究论文的第一作者、MIT博士生赵明民告诉新智元：“这里面的想法也很简单，就是同时采集图片和无线信号，并使用基于图片的神经网络来训练基于无线信号的神经网络。”

研究人员使用一个基于图片的神经网络来做“老师”，另一个基于无线信号的神经网络来当“学生”。老师看图片知道里面的人体姿态然后告诉学生，学生则需要学会从无线信号中也找到同样的结果。通过这样的方法训练出来的“学生”神经网络，就具备了利用无线信号识别人体姿态的能力。

很有趣一点，“学生”神经网络不仅学会“老师”教他的内容，还学到了“老师”都无法做到的事情，可谓青出于蓝而胜于蓝：虽然“老师”示范的都是没有障碍物的情况，基于无线信号的“学生”也学会了在有障碍物的情况下估计人体姿态，甚至是穿墙透视。

他们新提出的这个系统，名叫RF-Pose，可以解析无线信号并从中提取出精确的2D人体姿势，即使有墙壁遮挡也一样。下面的视频展示了RF-Pose人体姿态估计跟踪实例。

RF-Pose人体姿态估计演示。来源：MIT CSAIL

创下Wi-Fi人体姿态识别史上最高精度

RF-Pose展现出了十分优秀的性能：能够穿墙透视，用于光线昏暗的场景，即使在没有遮挡物的情况下，它的精度也与当前性能最优的基于视觉的系统相当。

RF-Pose超越了当前最好的基于视觉的人体姿态估计系统：第一行是RGB图像；第二行是RF-Pose的结果，这是仅从无线信号中学习到的人体骨架；第三行是OpenPose的结果，这是当前性能最好的基于视觉的人体姿态估计系统。在有遮挡、光线昏暗等场景中，RF-Pose性能明显更优。来源：研究论文

RF-Pose的结构示意：由学生和老师两个神经网络构成。上面是“老师”神经网络，提供训练监督，下面是“学生”神经网络，仅使用RF热图提取人体姿势。在训练过程中，系统使用同步的无线信号和视觉输入，从视觉流中提取姿态信息，并使用这些信息来指导训练过程。训练完毕后，网络只需使用无线信号进行姿态估计。其结果是，该系统只需利用无线信号来估计人体姿势，而不需要人类标注作为监督。来源：研究论文

除了跨形态监督之外，RF-Pose的设计还考虑了RF信号的内在特性，包括低空间分辨率、人体在穿过墙壁时对RF频率的镜面反射，以及RF信号与监控视频流在表示和透视上的差异。

研究人员利用在校园周围公共环境中收集的数据来训练和测试RF-Pose。这个数据集包含数百个不同的人进行不同的室内活动：走路、坐、走楼梯、等电梯、开门、和朋友聊天等。他们在不同的环境下进行测试和训练，以确保网络能够推广到新的场景。

此外，实验结果还表明，从RF信号中学习到的人体骨架，能够准确地反映一个人在移动时的特征。研究人员进行了一个实验，他们训练了一个CNN分类器，让这个分类器基于RF骨架识别人群中的某个人，发现准确率可以达到83%以上。

赵明民表示，这项研究有很多应用前景。很多疾病，例如帕金森、老年痴呆，都会反映在日常动作中，基于无线信号的人体姿态估计可以在家里，通过观察分析我们的动作来帮助这些疾病的诊断治疗。

在安防领域，受障碍物的影响，很多时候需要在各个角度安装很多设备，这时候无线设备的穿墙能力就能发挥用处。

无人驾驶也可以考虑结合视觉和无线信号来做感知。无线信号能更好的穿透雾等障碍，能在极端天气和光照条件下提供鲁棒性。无线信号也可以提前帮助汽车判断障碍物后面是否有行人。

研究人员表示，未来他们计划进一步拓展这个系统，从2D到3D，将无线感知与视觉相结合，提供更丰富的信息。

了解更多

1. paper: http://openaccess.thecvf.com/content_cvpr_2018/CameraReady/2406.pdf

2. project website: http://rfpose.csail.mit.edu/

3. Mingmin Zhao: http://people.csail.mit.edu/mingmin/

4. Dina Katabi: http://people.csail.mit.edu/dina/