微软发布Windows Vision Skills预览版，轻松调用计算机视觉API

2019 年 6 月 13 日 微软研究院AI头条

编者按：微软近期发布了Windows Vision Skills预览版，目前包含物体检测、人体骨架检测、情感识别等API。有了Windows Vision Skills，无需了解复杂的计算机视觉知识，你就可以轻松调用API解决一些计算机视觉问题。

计算机视觉技术有着广泛的应用场景和市场需求。微软近期发布了Windows Vision Skills预览版，旨在简化计算机视觉技术在Windows上的部署，帮助开发者通过简单调用一组API来解决一些计算机视觉问题。目前，Windows Vision Skills已包含可用于实现特定类型的计算机视觉技能的一组API，包括：物体检测、人体骨架检测和情感识别。

图1：从左到右展示了物体检测、人体骨架检测、和情感识别的结果

对于开发者而言，Windows Vision Skills框架极大地降低了计算机视觉技术的应用门槛。应用开发人员可以使用WinRT APIs来轻松地在Windows应用（.NET、Win32和UWP）上集成已搭建好的视觉技术，例如物体检测、人体骨架检测等，而无需了解技术内部复杂的算法和设计，大大缩短开发周期，提升开发效率。另外，计算机视觉开发者可以借助Windows设备上的硬件加速框架来将其方案打包成一个视觉技术包，而无需担心底层的设计。

在已发布的这三项计算机视觉API中，人体骨架检测技术来自微软亚洲研究院智能多媒体组。由于实际应用对于模型的处理速度和资源消耗有着极高的要求，用于研究目的的人体骨架检测模型难以满足实际需求。为此，微软亚洲研究院智能多媒体组的研究人员设计了高效的轻量级骨架检测模型，参数量仅为4M。

我们将该轻量级骨架检测模型与目前被业界广泛使用的开源模型OpenPose进行了对比。由于OpenPose的神经网络相对复杂，并不适合直接应用于产品中，所以我们将OpenPose模型进行了简化处理（即将6个stages减为1个stage来降低模型复杂度）。与简化版的OpenPose模型相比，我们提出的轻量级骨架检测模型在计算量（FLOPS）上实现了90%的减少（86G FLOPS vs. 9G FLOPS），CPU处理速度提升了4倍。

微软亚洲研究院首席研究员曾文军博士表示，“微软亚洲研究院长期致力于基础研究，并将成果落地于产品。我们的一系列视觉技术，如物体跟踪、行人重识别等，将陆续在Windows Vision Skills框架和微软认知服务平台上发布。”

人体骨架检测是计算机视觉中一项基础任务，对图像及视频中的人的理解和分析起着重要作用。骨架检测模型可将图片及视频中人的关键点（例如肩膀、手腕、膝盖等）检测和定位出来，如图2所示。由于人体骨架蕴含了人的体征、姿态、运动等众多信息，所以骨架检测模型在娱乐、教育、医疗等领域有着巨大的应用价值。

图2：人体骨架检测

人体的骨架检测有以下应用场景：

• 虚拟现实：在社交和娱乐中，人们有时候希望基于人的骨架加入特效，以产生增强的有趣内容来辅助传递信息。

• 行为识别：人体骨架蕴含了身体的姿态及动作信息，对人的行为类型的识别提供了重要信息。心理物理学家Gunnar Johansson所做的生物观察工作表明，可以通过观察人体有限关节点的运动来识别人的行为。近些年来，很多工作都在研究如何设计基于骨架的行为识别模型。

• 人机交互：在机器智能中，感知和理解人的语言乃至身体语言来做出及时的响应是核心问题之一。显式的骨架信息能为身体语言、指令的理解提供便利。

• 运动分析：在医疗康复及体育运动中，对人的运动进行智能分析可以大大减少人力投入，提升康复和训练效率。例如，在骨关节病评估及康复过程中，可以借助骨架检测来分析病人走路的模式，进而评估关节的灵活度以及病症的严重程度。

您可以在下方网站查看微软Windows Vision Skills人体骨骼检测、物体检测、情感识别API的使用示例：

使用示例

https://github.com/Microsoft/WindowsVisionSkillsPreview/tree/master/samples

更多信息请参考Windows Vision Skills使用教程以及NuGet.org包：

使用教程

https://github.com/Microsoft/WindowsVisionSkillsPreview

https://docs.microsoft.com/en-us/windows/ai/windows-vision-skills/tutorial

NuGet包

https://www.nuget.org/profiles/VisionSkills

作为高层次的人体语义信息，人体骨架也常作为有效的辅助信息被应用于其他研究任务中。例如，在行人重识别（Person Re-identification）的任务中，人体骨架信息常被用于辅助进行身体部位的检测，以解决不同图片间存在的空间语义不对齐（misalignment）问题。近期，我们会在另一篇文章中详细讲解在CVPR 2019上发表的一篇关于行人重识别的学术论文。在该论文中，为了解决行人重识别中存在的空间不对齐的实际挑战，我们借助于更细粒度的稠密语义（Dense Pose）来帮助网络学习鲁棒的特征。

论文：Densely Semantically Aligned Person Re-identification, CVPR, 2019

Zhizheng Zhang, Cuiling Lan, Wenjun Zeng, Zhibo Chen

作者简介