谷歌神经网络人声分离技术再突破！词错率低至23.4%

2018 年 10 月 14 日 未来产业促进会

点击上方“公众号”可以订阅哦！

来源：新智元

编辑：克雷格

【导读】谷歌和Idiap研究所的研究人员训练了两个独立的神经网络，能够显著降低多说话者信号的语音识别词错误率。

把一个人的声音从嘈杂的人群中分离出来是大多数人潜意识里都会做的事情——这就是所谓的鸡尾酒会效应。像谷歌Home和亚马逊的Echo这样的智能扬声器实现分离人群中的声音可能还要再经历一段时间，但多亏了AI，它们或许有一天能够像人类一样过滤掉声音。

谷歌和位于Switerzland的Idiap研究所的研究人员发表在Arxiv上的一篇论文中描述了一种新的解决方案。他们训练了两个独立的神经网络——说话者识别网络（a speaker recognition network）和声谱掩码网络（a spectrogram masking network）——这两个网络一起“显著”降低了多说话者信号的语音识别词错误率（WER）。

他们的工作建立在麻省理工学院计算机科学和人工智能实验室今年早些时候发表的一篇论文的基础上，该论文描述了一个名为PixelPlayer的系统，该系统能够将单个乐器的声音从YouTube视频中分离出来。

论文：

VoiceFilter: Targeted Voice Separation by Speaker-Conditioned Spectrogram Masking

论文地址：

https://arxiv.org/pdf/1810.04826.pdf

在最新的论文中，研究人员写道：“我们的任务是将一部分感兴趣的说话者的声音与所有其他说话者和声音的共性分离开来。例如，这样的子集可以由一个目标扬声器对个人移动设备发出语音查询，或者由一个家庭成员对一个共享的家庭设备进行交谈而形成。”

研究人员的语音过滤系统分为两部分，包括LSTM模型和卷积神经网络(只有一个LSTM层)。第一个采用预处理的语音采样和输出扬声器嵌入（即矢量形式的声音表示）作为输入，而后者预测来自嵌入的软掩模或滤波器以及根据噪声音频计算的幅度谱图。掩模用于生成增强幅度谱图，当与噪声音频的相位（声波）组合并变换时，产生增强的波形。

AI系统被训练以便最大限度地减少屏蔽幅度频谱图与从干净音频计算的目标幅度频谱图之间的差异。

该团队为训练样本提供了两个数据集：(1)来自13.8万名演讲者的大约3400万个匿名语音查询日志；(2)开源语音库LibriSpeech、VoxCeleb和VoxCeleb2的汇编。VoiceFilter网络对来自CSTR VCTK数据集(由爱丁堡大学维护的一组语音数据)和LibriSpeech的2338个贡献者的语音样本进行了训练，并使用来自73名演讲者的话语进行评估。

在测试中，VoiceFilter在双扬声器方案中将字错误率从55.9％降低到23.4％。

研究人员写道：“我们已经证明了使用经过专门训练的扬声器编码器来调整语音分离任务的有效性。这样的系统更适用于真实场景，因为它不需要事先知道扬声器的数量……我们的系统完全依赖于音频信号，可以很容易地通过使用具有高度代表性的嵌入向量来推广到未知的扬声器。”

　　注：投稿请电邮至124239956@qq.com ，合作或加入未来产业促进会请加：www13923462501 微信号或者扫描下面二维码：

　　文章版权归原作者所有。如涉及作品版权问题，请与我们联系，我们将删除内容或协商版权问题!联系QQ：124239956

登录查看更多

相关内容

神经网络

关注 5913

人工神经网络（Artificial Neural Network，即ANN ），是20世纪80 年代以来人工智能领域兴起的研究热点。它从信息处理角度对人脑神经元网络进行抽象，建立某种简单模型，按不同的连接方式组成不同的网络。在工程与学术界也常直接简称为神经网络或类神经网络。神经网络是一种运算模型，由大量的节点（或称神经元）之间相互联接构成。每个节点代表一种特定的输出函数，称为激励函数（activation function）。每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重，这相当于人工神经网络的记忆。网络的输出则依网络的连接方式，权重值和激励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近，也可能是对一种逻辑策略的表达。最近十多年来，人工神经网络的研究工作不断深入，已经取得了很大的进展，其在模式识别、智能机器人、自动控制、预测估计、生物、医学、经济等领域已成功地解决了许多现代计算机难以解决的实际问题，表现出了良好的智能特性。

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知会员服务

24+阅读 · 2020年3月31日

【ICLR2020-谷歌】用“复合散度”量化模型合成泛化能力

专知会员服务

20+阅读 · 2020年3月29日

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

专知会员服务

19+阅读 · 2020年2月26日

【2020必看书】TinyML-微型化机器学习，149页pdf，在超低功耗微控制器上用TensorFlow Lite实现机器学习

专知会员服务

143+阅读 · 2020年2月19日