戴上头环即可「重见光明」，微软Project Tokyo项目正在帮助弱视人群重启社交

2020 年 2 月 5 日 机器之心

选自microsoft blog

机器之心编译

参与：高璇、Geek AI

作为人工智能的重要应用场景，「人工智能+人机交互」在帮助残障人士拓展自身能力，使其融入社交活动的方面正发挥着越来越重要的作用。来自微软 Project Tokyo 团队的研究人员正与视力残障人士紧密合作，力图为他们打开一扇通往「光明」世界的大门。

Theo（左）是一名失明的 12 岁男孩，在对 Project Tokyo 系统进行用户测试时与 Microsoft 高级研究软件开发工程师 Tim Regan（中）和 Martin Grayson（右）进行互动。

借助AI，盲人可以在房间里「分辨」人脸

2019 年 12 月中旬的一个阴雨天，12 岁的失明男孩 Theo 坐在拥挤的厨房里的一张桌子旁。他棕色的头发上绑着一个带有摄像机的头带，摄像机旁是深度传感器和扬声器。他左右转动自己的头，直到位于头带正前方的摄像头对准桌子另一端的一个人的鼻子。

Theo 通过位于耳朵上方的头带上的扬声器听到「砰」的一声提示音，然后听到「Martin」的名字。

Theo 说：「我花了五秒才找到你，Martin，」他将头和身体朝向 Martin Grayson 的方向。Grayson 是微软剑桥研究实验室的高级研究软件开发工程师，此时他站在一个齐膝高的黑色箱子旁，箱子中装着运行机器学习模型所需的计算硬件，Theo 用来「看见」他的原型系统正是由这些硬件驱动的。

Theo 的母亲 Elin 正站在另一侧的墙边，她说：「我喜欢你转身找到他的方式。这真是太好了。」

当 Theo 开始转向面对他的母亲时，扬声器又「砰」地响了一声，叫出了「Tim」的名字。

「Tim，你在这儿，」Theo 高兴地「凝视」着实验室的另一位高级软件开发工程师 Tim Regan 说。Tim Regan 将 Theo 带到他的身边，教他先进的计算机编码技能。Theo 和他的母亲每两个月会到 Regan 的家中上一次编程课。他们在一个研究项目中相识，该项目促成了 Code Jumper 的开发（Code Jumper 是一种物理编程语言，适用于各种视力水平的儿童）。

Theo 现在是和 Regan、Grayson、研究员 Cecily Morrison 以及其团队一起开展 Project Tokyo 项目的盲人和弱视群体中的成员之一，该项目是一项多方面的研究工作，旨在创建智能个人助理技术，利用人工智能来扩展人们的现有能力。

对于 Theo 而言，这意味着可以使用一些工具识别出周围的人。

Theo 说：「能够感知人们处于我周围的什么位置真是令人兴奋。不仅是说话的人，还有所有沉默的人，你们都可以看到他们的脸，而我却不能」。

Martin Grayson（左）是位于剑桥的微软研究实验室的高级研究软件开发工程师，他将微软研究员 Cecily Morrison（右）注册到 Project Tokyo 系统中进行用户测试。

Morrison 指出，研究项目 Project Tokyo 的长期目标是展示如何构建能够扩展所有用户能力的智能个人助理。她认为人工智能的未来趋势并不是构建可以完成特定任务的端到端系统，而是一组人们可以以合适自己的方式使用的资源。

「我们不必说，'你是盲人，我只是让您学着使用这个工具。'我们说，'嘿，你就是你，我刚刚构建了一个适合你的系统，」她说。「我不需要了解你。我不需要在你身上贴标签。我们有一个可以采用并适应每个人的系统，你可以直接使用它。」

巴西残奥会

Project Tokyo 诞生于 2016 年初，是当时微软高管们发起的一项挑战，希望创建的人工智能系统不仅仅只能完成诸如获取体育比分、天气预报或物体识别之类的任务。Morrison 说，为盲人和弱视人群创建工具很适合该项目，因为残疾人通常是新技术早期的采用者。

Morrison 说：「这并不是说，『让我们为盲人制造一些东西。』我们正在与盲人合作，以帮助我们想象有关人工智能新体验的未来。」

Morrison 和她的同事 Ed Cutrell 都是位于华盛顿州雷蒙德的微软研究实验室的高级首席研究员，他们被任命领导该项目。他们都是与盲人或弱视人士一起设计相关技术的专家，他们决定从了解智能个人助理技术如何增强或扩展用户的能力开始进行研究。

首先，他们跟随一群具有不同视力水平的运动员和观众，从英国出发前往巴西里约热内卢的 2016 年残奥会，观察他们在进行机场导航、出席运动场馆、旅游观光等活动时如何与其他人互动。Cutrell 指出，需要明确的是对社交环境的丰富理解如何帮助盲人或弱视人士了解他们的环境。

他说：「作为人类，我们对如何与人互动有着非常非常微妙且复杂的社会理解——了解房间里的人是谁，他们在做什么，与我的关系是什么，这些关系是否对我有用。对于盲人来说，很多我们认为理所当然的线索是没有的」。

为了促进用于盲人和弱视人士的技术的研究，的社区举办了一系列研讨会，研讨重点是可以提供这种体验的潜在技术。Peter Bosher 是一名 50 多岁的音频工程师，他一生大部分时间都是在黑暗中度过的，他与 Project Tokyo 团队合作。他说，这种可以为人们提供周围人信息的技术概念立刻引起了他的共鸣。

「每次当我遇到两个或以上的人在场的场合，特别是如果我不认识其中的一些人，交流就会特别困难，因为人们使用越来越多的眼神交流和肢体语言来表明他们现在正在说话，」他说。「作为一个盲人，想要正常交流真的太难了。」

位于华盛顿州雷蒙德市的微软研究组织的高级首席研究员 Ed Cutrell 是 Project Tokyo 的共同负责人。在他的桌子上放着几个经过改良的微软全息透镜（Microsoft HoloLens），项目研究人员正在使用它们帮助盲人和弱视人士了解他们所处的社交环境。

改良的「HoloLens」

当 Project Tokyo 的研究人员了解了他们想要创建的人工智能体验的类型后，他们便着手构建这项技术。他们从原始的 Microsoft HoloLens 开始，这是一种混合现实头戴设备，可将全息图投影到用户可以操作的真实世界中。

格雷森在微软剑桥实验室的技术演示中说：「HoloLen 为我们提供了构建实时的人工智能助理所需的、可以传达社交环境的大量信息。」

例如，该设备有一个灰度相机阵列，可提供接近 180 度的环境视角，以及用于高精度面部识别的高分辨率彩色相机。此外，用户耳朵上方的扬声器可实现音频空间化——声音的产生就好像来自用户周围的特定位置。

然后，Project Tokyo 团队的机器学习专家开发了一系列计算机视觉算法，可提供有关用户所处的环境中存在人员的不同优先级信息。这些模型在 GPU 上运行，这些 GPU 位于 Grayson 的黑色箱子中，再把这些箱子运到 Regan 的家中，让 Theo 进行用户测试。

例如，一种模型可以检测环境中人的姿势，从而可以感知到人与用户之间的距离及其位置。另一个模型则分析高分辨率相机采集的照片流，以识别人脸并确定名字。所有信息都通过音频提示传递给用户。

假如设备检测出用户左侧一米远处有一个人，则系统将播放听起来像是来自左侧一米远处的咔嗒声。如果系统识别出该人的脸部，它将发出「砰」的声音，并且如果该系统知道这个人的名字，它将叫出其姓名。

当用户仅听到咔嗒声但想知道该人是谁时，第二层声音会像松紧带一样将用户的视线引向该人的脸部。当镜头的中央摄像头与人的鼻子正对时，用户会听到尖锐的咔哒声，如果系统知道此人，则会播报他的名字。

Bosher 说：「我特别喜欢它的地方是，它能给你的视线以角度，因为我永远无法确定您的头所能感知的角度是多少」。在设计过程的早期，他与 Project Tokyo 团队合作就音频体验进行合作，随后他又回到了剑桥实验室讨论他的经验并验证最新版本。「这将是学习肢体语言的好工具。」

音频工程师 Peter Bosher（中）是一名盲人，他在设计过程的早期就与 Project Tokyo 团队开始了合作，他与研究人员 Martin Grayson（左）和 Cecily Morrison（右）在微软位于剑桥的研究实验室查验了该系统的最新版本。

用户一起制作原型

随着 Project Tokyo 团队对技术的开发和发展，研究人员通常会邀请成年盲人或弱视人士测试该系统并提供反馈。例如，为了促进更直接的社交互动，研究团队从 HoloLens 上去掉了镜头。

一些用户表示希望在不频繁转头的情况下，不引人注意地获得系统收集的信息，因为频繁转头让他们在社交中感到尴尬。这些反馈促使 Project Tokyo 团队开发了一些功能，可以帮助用户快速了解周围的人，例如询问概况并获得系统可以识别的所有人的姓名和空间信息。

另一个实验性功能是，当某人看向他们时，它会发出空间通知，这是因为拥有健康视力的人通常会建立眼神交流来发起对话。但是发出这个通知后没有紧跟着报名字。

「当你看到某人时，我们已经使用了这个名字了，」Grayson 向 20 多岁的弱视测试员 Emily 解释，她参观了剑桥实验室以了解最新功能。「在不播报名字的情况下，它可能会把你的注意力转向想引起你注意的人，当你转向他们，你就可以知道他们的名字。」

Emily 说：「我完全同意。视力正常的人就会这样反应。他们会用眼角余光观察别人，或者你会有某种感觉，然后叫出别人的名字」。

研究人员向 Emily 展示了改良后的 HoloLens，它的摄像头上方还装有一个 LED 灯带。白光跟踪最接近用户的人，当这个人被识别后，灯会变成绿色。该功能可让交流伙伴或旁边的人知道他们已经被人看见，从而使对话更加自然。

LED 灯带还让人们可以离开设备的视野而不会被看见（如果他们选择这么做）。「当你知道自己即将被人看见时，你也可以决定不被人看见，」Morrison 指出。「如果你知道什么时候会被人看见，你就知道什么时候可以不被人看见」。

盲人音频工程师 Peter Bosher（左）在英国剑桥的微软研究实验室中查验了 Project Tokyo 的最新版本。Bosher 佩戴了改良后的 Microsoft HoloLens，它将视野中的图像传输到计算机硬件进行处理。笔记本电脑屏幕上的仪表板显示了这个视野。HoloLens 可以看到 Microsoft 研究人员 Cecily Morrison 和 Martin Grayson。

教授社交互动技能的工具

随着技术研究的不断深入，Project Tokyo 正在探索研究过程中发现的使用方法：利用该技术帮助盲人或弱视儿童发展社交能力。

一份学术研究显示，三分之二的失明或弱视儿童表现出与自闭症儿童相一致的社交行为。例如，许多失明或视力低下的孩子似乎对谈话对象漠不关心，常常将头靠在桌子上，耳朵露在外面。

Morrison 和 Cutrell 围绕 Project Tokyo，探索迷你版系统是否可以用来帮助盲人或弱视儿童，让他们了解如何利用肢体来与人互动。

Microsoft 研究人员已经与 Theo 建立了联系，希望通过他来了解该系统适应儿童的需要，例如考虑了儿童爱坐在一起的习惯，而且很少坐着不动。

Theo 回忆说：「当播报人们的名字时，它试图同时播报两个名字，而我要求改变这一项，因为基本上这样谁的名字也听不清」。

研究人员还探究了 Theo 如何使用该系统。例如，在一次家庭用餐期间，他开始反复细微地将头左右移动，使系统读出与他交谈的人的名字。

Morrison 说：「我们认为他正在用这个系统来刷新他对某个人位置的记忆，从而构建他的空间注意力。这是我们从未预料到的，但这是一种非常有效的策略，可以帮助他保持注意力，如果他可以保持注意力，就可以持续就某一主题交谈。」

该技术的其他用途更符合研究人员的假设，即帮助他培养在一个由视力正常的人主导的世界中进行社交互动的技能。

例如，像其他失明或弱视的孩子一样，Theo 会在社交场合中将头放在桌子上，一只耳朵露在外边。研究人员与 Theo 一起玩了一系列游戏，旨在说明当他使用身体和头部与视力正常的人交谈时可能产生的社交力量。

在实验室的游戏中，研究人员要解决一组问题。Theo 知道答案，研究人员仅知道该主题，并且只有在 Theo 看着他们时他们才能交谈。当 Theo 移开视线时，他们就会停止交谈。

「突然之间，他意识到自己可以控制一段对话，」Morrison 说。「他开始理解能够看着某人的力量，这种力量赋予了他对话的能力，因此使他拥有了全新社交能力，这是他以前无法企及的」。

现在 Theo 很少再把头放在桌子上说话了。无论是否佩戴着改良版的 HoloLens，他都会将自己的身体和脸朝向他想交流的人。这种变化是否会长期持续还尚未可知，研究人员也不确定其他失明或视力低下的孩子是否也会做出类似反应。

「我们从 Theo 身上看到了希望，这虽然只是个例，但让我们对未来的情况充满期待，谁知道未来会发生什么呢，」Cutrell 说。「这就是我们要进入下一阶段的原因，该阶段将研究更多的儿童和更广的年龄范围」。

微软剑桥研究实验室的机器学习研究员 Sebastian Tschiatchek 正在研究让人们可以使 Tokyo Project 系统更加个性化的功能。Jonathan Banks 摄影。

Project Tokyo 未来的发展方向

Project Tokyo 的研究工作仍在继续，包括机器学习的新方向，让用户可以根据自己的喜好调整系统。剑桥实验室的机器学习研究员 Sebastian Tschiatschek 正在研究一种功能，使用户能够向系统显示他们想听的信息类型和数量。

个性化的发展要求 Tschiatschek 采取非常规的机器学习方法。

他说：「我们想做的是以某种数学形式将问题归一化，做到这一点并不那么容易。许多开发工作都是通过尝试，与人们进行互动，了解他们的喜恶，并通过改进算法来实现」。

他解释说，对个性化的需求之所以存在，是因为盲人或弱视人士具有不同的视力水平，因此对信息需求也不同。此外，系统用户在被告知他们已知的信息时，会感到沮丧。

Tschiatschek 说：「要实现 Project Tokyo 的愿景，必须要把很多目前无法解决的问题结合起来」。

最终，Project Tokyo 将展示出如何构建可扩展所有用户的能力的智能个人助理。为了实现这一目标，Morrison、Cutrell 及他们的同事将继续与盲人或视力低下的人，包括更多的儿童一起合作。

「我们在西奥身上看到的情况令人十分受鼓舞，」在 Regan 家进行系统测试的第二天，Morrison 在她的办公室说。「这是因为他正以前所未有的方式掌控着自己的世界」。

越来越多的儿童参与到了 Project Tokyo 项目中，其中就包括 Morrison 7 岁的儿子 Ronan，他自出生以来就失明了。

她补充说：「我认为我们将在 Ronan 身上看到这一点，我很期待。」

参考链接：

https://news.microsoft.com/innovation-stories/project-tokyo/

本文为机器之心编译，转载请联系本公众号获得授权。

✄------------------------------------------------

加入机器之心（全职记者 / 实习生）：hr@jiqizhixin.com

投稿或寻求报道：content @jiqizhixin.com

广告 & 商务合作：bd@jiqizhixin.com

登录查看更多

相关内容

用户测试

关注 0

AI创新者：破解项目绩效的密码

专知会员服务

35+阅读 · 2020年6月21日

【干货书】用Python构建聊天机器人，205页pdf，使用自然语言处理和机器学习

专知会员服务

220+阅读 · 2020年6月14日

Gary Marcus力作：AI的下个十年，向‘强’人工智能迈进的四步战略（附59页论文下载）

专知会员服务

39+阅读 · 2020年2月20日

【书籍】深度学习框架：PyTorch入门与实践（附代码）

专知会员服务

167+阅读 · 2019年10月28日

【IJCAI 2019】人工智能中的认知推理（Epistemic reasoning in AI），法国雷恩François Schwarzentruber，Tristan Charrier

专知会员服务

22+阅读 · 2019年8月10日

AI情绪识别技术背后：一场悄然来袭的“暴政”

大数据文摘

7+阅读 · 2018年10月11日

倒计时 2 周，第 0 届学生开源年会，与你不醉不会

开源中国

3+阅读 · 2018年5月31日

微软推出12 门免费人工智能课程，计划一年培养10万AI人才

深度学习世界

4+阅读 · 2018年5月23日

中国人脸识别技术正在让世界颤抖！（附人脸识别调查报告）

51CTO博客

3+阅读 · 2018年4月3日

Google 推出最强 AI 产品阵容，但他们却觉得更该让 AI 人人可得

PingWest品玩

4+阅读 · 2017年12月2日

Open Knowledge Enrichment for Long-tail Entities

Arxiv

6+阅读 · 2020年2月15日

Robust breast cancer detection in mammography and digital breast tomosynthesis using annotation-efficient deep learning approach

Arxiv

14+阅读 · 2019年12月27日

From Knowledge Graph Embedding to Ontology Embedding: Region Based Representations of Relational Structures

Arxiv

10+阅读 · 2018年5月26日

Interactive Generative Adversarial Networks for Facial Expression Generation in Dyadic Interactions

Arxiv

4+阅读 · 2018年1月30日

What Level of Quality can Neural Machine Translation Attain on Literary Text?

Arxiv

5+阅读 · 2018年1月15日

VIP会员