学界 | 借助 RNN 从脑电波还原语音，Nature 论文呈上新款「脑机接口」

2019 年 4 月 25 日 AI科技评论

AI 科技评论按：近日，来自加州大学旧金山分校的研究者开发出了一种能将大脑信号转换为语音的虚拟假体语音系统，可帮助癫痫和其他神经性疾病患者还原语音能力。这项研究成果于 4 月 24 日发表在《自然》杂志上，并得到了多家媒体的报道，其中就包括《纽约时报》。AI 科技评论将《纽约时报》的这篇报道编译如下。

「我在脑海中将每一个句子都过十遍，或删掉一个单词，或再添加一个形容词，并通过背诵来逐段地琢磨我的文字。」Jean-Dominique Bauby 在他的回忆录《潜水钟和蝴蝶》中这样写道。作为一位记者兼编辑，Bauby 在这本书里回忆了那次让他的全身都几乎无法动弹的瘫痪性中风之前和之后的生活。他眨着眼皮，逐字将书中的内容读出来。

成千上万的人由于在事故或争斗中受伤，或患上中风或肌萎缩侧索硬化（ALS）等神经退行性疾病而丧失说话能力，都同样地遭遇着沟通困境。

而现在，科学家们在报告中提出，他们已经开发了一种虚拟的假体语音系统，该系统能够解码大脑的说话意图，并将它们转化为基本可以理解的言语，而不需要移动任何肌肉，甚至是口腔内的肌肉。（物理学家兼作家斯蒂芬 · 霍金，曾经就使用他脸颊上的肌肉在键盘上打出字符，然后计算机再将这些字符合成为语音。）

佛罗里达州杰克逊维尔市梅奥医学中心（Mayo clinic）的神经科医生兼神经科学家 Anthony Ritaccio 博士并非该研究组的成员，他表示：「这（AI 科技评论注：解码大脑信号）是一项艰巨的工作，它推动我们进入了语音还原的另一个层次」。

实际上，此前研究人员就已经开发出了其他的虚拟语音辅助工具。它们都通过解码负责识别字母和单词以及口头表示的大脑信号来实现语音辅助，但是这些方法在自然语言表达的速度和流动性上尚显不足。

这个新系统的相关工作于周三发表在《自然》杂志上，它译解了大脑在说话期间用来指导声带运动（如舌头与口腔的碰撞、嘴唇缩窄等）的控制命令，产生的句子在可理解的同时，也接近于说话者自然的说话节奏。

专家们认为，这项新的工作成果代表了一次「原理论证」，它预示着某些事情经过进一步的实验和提升后可能实现的目标。研究者在能正常说话的人身上测试了该系统，不过还尚未将其放在那些身患造成解码难度或无法实现的神经性疾病或重伤（例如常见的中风）的患者身上进行测试。

针对新的试验，加州大学旧金山分校和加州大学伯克利分校的科学家们招募了五名在医院接受癫痫手术评估的患者。

ECoG 电极矩阵由能够记录大脑活动的颅内电极组成（图源：加州大学旧金山分校）

Gopala Anumanchipalli 是加州大学旧金山分校的神经学家，他正拿着一个跟在当前研究中所使用的电极矩阵非常相似的电极矩阵（图源：加州大学旧金山分校）

许多癫痫患者都由于药物治疗效果不佳而选择接受脑部手术。在手术前，医生必须首先找到癫痫在每个人的大脑中发作的「热点」，这通过在大脑中或大脑表面上放置电极，并听取明显的电风暴 (electrical storms) 来完成。

对此位置进行精确定位可能需要耗费数周时间。在此期间，患者通过在涉及到运动和听觉信号的大脑区域里面或附近植入电极来度日。这些患者往往会同意在这些植入物体上搭载其他额外的实验。

加州大学旧金山分校的这五名此类患者就接受在他们身上测试虚拟语音生成器。研究者在他们每个人的大脑中都植入了一个或两个电极矩阵：邮票大小的衬垫包裹了数百个被放置在大脑表层的微小电极。

当每个志愿者在背诵数百个句子时，电极就会记录下运动皮层中神经元的发射模式。研究人员将这些模式与患者在自然说话期间所发生的嘴唇、舌头、喉部以及下颌的微妙运动联系起来。之后，研究团队再将这些运动转译为成口头表达的句子。

另外在实验中，研究者还让以英语为母语的人听取句子来测试虚拟语音生成器的流畅度，最终发现虚拟系统说出的 70% 的内容都是可理解的。

Edward Chang 博士致力于研究大脑如何产生和分析语音，他开发了一个为癫痫和其他神经性疾病患者还原语音能力的假体。（图源：加州大学旧金山分校）

这项新研究工作的论文作者、加州大学旧金山分校神经外科教授 Edward Chang 博士表示，「实验显示，我们通过解码指导发音的大脑活动模拟出来的语音，比根据从大脑中提取出来的声音表示而合成的语音更准确，也更自然。」Edward Chang 博士的同事是同在加州大学旧金山分校的 Gopala K. Anumanchipalli 以及同时在加州大学旧金山分校和加州大学伯克利分校任教的 Josh Chartier。

以前基于植入物的通信系统，每分钟可生成大约 8 个单词。而这项新成果每分钟能以自然的说话节奏生成约 150 个单词。

研究人员还发现，其他人可以使用和调整基于某个人的大脑活动的合成语音系统——这就暗示着现有的虚拟系统在未来某一天都能够对外开放。

该团队正计划展开临床试验以进一步测试该系统。而临床试验面临的最大挑战，可能是寻找合适的患者：让人类丧失说活能力的中风，往往也会损害或影响到支持语音发音的大脑区域。

尽管如此，众所周知，脑器接口技术（相关技术可查看雷锋网 AI 科技评论此前的一篇相关报道）领域正在迅速发展，世界各地的研究团队也正在改进这项技术，未来有可能实现对特定伤患进行脑器接口技术的量身定制。

埃默里大学、佐治亚理工学院的生物医学工程师 Chethan Pandarinath 和 Yahia H. Ali 在一篇附随评论中写道：「随着这项新技术的持续进步，我们能够期待有言语障碍的人能够（凭借这项技术）重新获得自由表达个人想法的能力，并与其周围的世界重新建立联系。」

论文：《Speech synthesis from neural decoding of spoken sentences》

下载地址：https://www.nature.com/articles/s41586-019-1119-1

摘要：将神经活动转换成语音的技术对于因神经系统损伤而无法正常交流的人来说，是革命性的。从神经活动中解码语音极具挑战性，因为说话者需要对声道发声进行非常精准、快速的多维度控制。这项新研究设计了一个神经解码器，以显式地利用人类大脑皮层活动中进行了编码的运动表示和声音表示来合成语音。首先，用循环神经网络直接将记录的大脑皮层活动解码为发音运动的表示，然后将这些表示转换为语音。在封闭的词汇测试中，听众可以识别和转录出利用大脑皮层活动合成的语音。中间的发音动态即使在数据有限的情况下也能帮助提升性能。讲话者可以较大程度地保存经过解码的发音运动表示，从而使得解码器的组件可在不同参与者之间迁移。此外，该解码器还可以在参与者默念句子时合成语音。这些发现都提升了使用神经假体技术还原语音交流能力的临床可行性。

via：

https://www.nytimes.com/2019/04/24/health/artificial-speech-brain-injury.html

点击阅读原文，查看汉语语音相似性编码的研究

登录查看更多

相关内容

语音系统

关注 361

语音系统的应用可以分为两个发展方向：一个方向是大词汇量连续语音识别系统，主要应用于计算机的听写机，以及与电话网或者互联网相结合的语音信息查询服务系统，这些系统都是在计算机平台上实现的。另外一个重要的发展方向是小型化、便携式语音产品的应用，如无线手机上的拨号、汽车设备的语音控制、智能玩具、家电遥控等方面的应用，这些应用系统大都使用专门的第三方软件来实现，特别是近几年来迅速发展的语音信号处理专用芯片（Application Specific Integrated Circuit，ASIC）和语音识别片上系统（System on Chip，SOC）的出现。

【ICML2020-华为港科大】RNN和LSTM有长期记忆吗？

专知会员服务

78+阅读 · 2020年6月25日

【ICMR2020】持续健康状态接口事件检索

专知会员服务

18+阅读 · 2020年4月18日

【CVPR2020-百度】用于视觉识别的门控信道变换

专知会员服务

13+阅读 · 2020年3月30日

【干货书】深度学习生命科学：基因组学、药物发现，238页pdf

专知会员服务

200+阅读 · 2020年3月18日