新智元报道
来源:ieee
编辑:小芹,张佳
脑机革命真的来了!
大脑活动解码语音已经不是新鲜事,但是,实时地解码大脑信号,将“听到”和“说出”的对话转变成文字,并且准确率很高,是全球首次!
2017年F8大会上,Facebook宣布了脑机接口(BCI)计划,概述了构建非侵入性可穿戴设备的目标,该设备能让人们通过默想自己说的话来打字。
作为这项工作的一部分,Facebook一直支持加州大学旧金山分校(UCSF)的一组研究人员,他们致力于通过实时检测大脑活动中有意“想象”的声音,来帮助神经损伤的患者重新说话。
今天,加州大学旧金山分校的研究团队在《自然-通讯》上发表论文,分享了他们的新研究。他们已建成一个脑机接口,可以准确地实时从大脑解码由佩戴设备的人听到和说出的对话和短语。这是全球首个实时解码大脑信号的问答语音的项目。
这篇文章的资深作者是华裔科学家、加州大学旧金山分校神经外科教授 Edward Chang 博士。
Edward Chang
Edward Chang 博士的研究重点是言语、运动和人类情感的大脑机制,同时他也是加州大学旧金山分校和加州大学伯克利分校的合作单位 —— 神经工程与假肢中心的联合负责人。该中心汇集了工程、神经病学和神经外科方面的专家,以开发最先进的生物医学技术,用以恢复神经系统残疾患者的功能,如瘫痪和言语障碍。
不久前,新智元报道了Edward Chang团队通过解码脑电波,使用深度学习方法直接从大脑信号中合成口语句子的突破性研究,而这次的新研究更进一步,从大脑信号解码出对话,并转换成文字。
Edward Chang博士表示,在对话环境中实时解码语音,对那些无法说话的患者有重要意义。
Facebook AR/VR副总裁Boz将这一研究发到twitter上,引来吃瓜群众热议:
Gjergj Dollani打趣道——未来新闻标题:“2300万大脑遭到大规模攻击,数据安全受到破坏。”
Harold Thimbleby表示:有意思;我只需通过想就能打出我想说的话。就这么简单。(我可以想象 Tommy Cooper的声音)
Ed Ho表示:帮助脑部受伤的人是的非常酷的东西!
接下来就为大家解读这项非常有意思的研究。
实时解码问答对话,准确率大幅提升
Facebook的Mark Chevillet给了自己两年时间来证明构建一种非侵入性的BCI技术是否可行,这种技术可以从大脑活动中每分钟读出100个单词。
两年过去了,Chevillet说:“我们确实认为这是可能的。”
作为Facebook现实实验室脑机接口项目的研究主管,Chevillet计划推进这个项目——以及开发增强现实眼镜的最终目标,这种眼镜无需大声说话就可以控制。
Mark Chevillet 是 Facebook Reality Labs 的脑机接口(BCI)项目研究主管
Chevillet的乐观情绪在很大程度上得益于今天早上宣布的脑机接口领域的第一项突破:发表在Nature Communications上,加州大学旧金山分校由Facebook现实实验室资助的一个团队已建成了一个脑-机接口,能够实时地从大脑信号中准确解码对话。
这项研究的资深作者、加州大学旧金山分校的神经外科医生Edward Chang说,该研究结果是朝着神经植入物的方向迈出的重要一步,这种神经植入物可用于恢复因中风、脊髓损伤或其他疾病而失去说话能力的患者的自然交流。
不过,与生物医学设备相比,Facebook对制造增强现实眼镜更感兴趣。Chevillet说,这项工作提供了一个原理证明,即通过测量大量神经元的活动,可以从大脑信号中解码想象的语言。“这一结果有助于设定我们需要打造的可穿戴设备的规范。”
今年4月,Chang的团队首次推出了一种不同的脑-机接口,可以直接从大脑信号中解码语音。今天发布的这项工作的目标是提高解码大脑活动的准确性。
Chang说:“我们正在从大脑的两个不同部分解码两种信息,并将其用作上下文。”他说。结果是,这对解码的准确性产生了“相当大的影响”。
提高准确度的基础来自一个简单的概念:添加上下文。
UCSF的研究团队通过将电极植入三名癫痫患者的大脑中,记录了他们的电脑活动;同时,志愿者被要求听一组事先录制的问题,并大声说出他们的回答。
然后,这些大脑数据被用来训练机器学习算法。接着,当志愿者再次被要求回答问题时,算法只使用大脑活动来判断志愿者是在听还是在说,然后尝试解码话语。
左边是实际产生的问答,右边是系统的解码。
大多数语音解码器的工作原理是对一个人在想什么声音做出最佳猜测,因此一般的大脑解码器可能会将发音相似的单词混淆,例如“synthesizer”(合成器)和“fertilizer”(肥料)。
UCSF开发的新系统增加了上下文来帮助区分这些单词。首先,该算法预测从一组已知问题中听到的问题,比如“What do you spread on a field?”(你在田野上撒了什么?),然后,这些信息被用作上下文来帮助预测答案:“Fertilizer”(肥料)。
在一个问题(蓝色)和回答(红色)的任务中,实时语音解码的原理图
Chang说,通过添加上下文,脑-机接口更容易预测答案。
问题-答案集
使用一组特定的问题和答案,该系统能够解码感知(听到)和产生(说出)的语音,准确率分别达到76%和61%。研究团队表示,他们希望在未来扩大系统的词汇量。
更好的算法和更快的计算机也提高了研究中的解码速度:Chang说,过去需要几周到几个月的离线处理,现在可以实时完成了。
一个参与者的语音解码和分类结果
Facebook的终极目标:非侵入式的脑机接口设备
UCSF研究团队的实验仍使用植入电极来获取大脑信号:参与者 1 和 2 各自植入两个 128 通道 ECoG 阵列,参与者 3 植入一个 256 通道 ECoG 阵列。不过,Facebook的最终目标是非侵入式的脑机接口设备。
Facebook Reality Labs 设计了非侵入式可穿戴脑机接口设备的原型(在今天发表的打字实验中没有使用)。
在今天发表的一篇博客文章中,Facebook解释了这种未来设备:
就像身体里的其他细胞一样,神经元在活动时也会消耗氧气。因此,如果我们能检测到大脑中氧气水平的变化,我们就能间接地测量大脑活动。想象一下脉搏血氧计——一个夹子状的传感器,它会发出红光,把它夹在食指上就可以测量血液的血氧饱和度。我们也可以使用类似红外光的,以一种安全、非侵入性的方式来测量大脑中血液的氧含量。这类似于在功能性磁共振成像(fMRI)中测量到的信号——但使用的是由消费级零件制成的便携式可穿戴设备。
我们不期待这个系统很快就能解决 AR 的输入问题。目前它体积庞大,速度缓慢且不可靠。但潜力很大,因此我们认为随着时间的推移,不断改进这项最先进的技术是值得的。虽然测量氧含量可能无法解码想象的句子,但是能够识别哪怕只有几个想象的命令,比如 “主页”,“选择” 和 “删除”,都将为我们提供与今天的VR 系统以及未来的AR 眼镜交互的全新方式。
我们还在探索各种方法,从把测量血氧含量作为检测大脑活动的主要手段,转向测量血管甚至神经元本身的运动。由于智能手机和激光雷达光学技术的商业化,我们认为可以创造出小型、方便的BCI设备,让我们能够测量更接近我们目前用植入电极记录的神经信号,甚至有一天可以解码无声的语音。
这可能需要十年时间,但我们认为差距正在缩小。
Neuralink和Facebook,谁会最先商业化?
Facebook并不是唯一一家致力于脑机接口的大公司。还记得本月中旬马斯克的Neuralink公司发布的脑机接口技术新突破吗?
这套脑机接口系统利用一台神经手术机器人向人脑中植入其称为“线”的专有技术芯片和信息条,然后可以直接通过USB-C接口读取大脑信号,甚至可以用iPhone进行控制,简直是科幻片成真。
负责放大信号,并将信号发送到计算机的芯片
这套脑机接口系统已经成功连接到实验鼠身上,可以从1500个电极读取信息,马斯克称目前已经通过实验证明,“猴子可以通过大脑控制电脑”,并表示“2020年底之前要将人脑连接到计算机上”。
Neuralink的系统植入实验鼠的体内
详见:《马斯克发布iPhone可控大脑芯片!植入电极线细过发丝,机器缝线柔性无创》
与高调的马斯克形成鲜明对比的是Facebook的这项研究。Facebook打算用红外线制作一种从外部接收大脑信号的AR眼镜,而Neuralink正在开发一种植入式阵列,由3000个柔性电极组成,以增强大脑功能。
这两家公司似乎是在竞争第一名,看谁能把通过大脑-计算机接口来解码大脑活动最先商业化。但朝着这一目标的进展可能更像是一场慢节奏的尝试,而不是一次冲刺。Chevillet表示:“我们没有任何实际的产品计划,因为这项技术是早期阶段的研究。”
与此同时,Chang希望尽快为那些不会说话的病人带来有意义的改变。到目前为止,该团队的所有工作都是由能够说话的志愿者完成的,因此团队现在将花费一年的时间与一位失语的参与者一起工作,在计算机屏幕上生成文本。所有数据将由UCSF收集并保密保存在大学服务器上。与此同时,与Facebook合作的所有结果都正在发布,并且可供学术界使用。
Chang说:“我希望这不仅有益于我们正在做的事情,而且有利于整个领域。”