Continuous speech separation using a microphone array was shown to be promising in dealing with the speech overlap problem in natural conversation transcription. This paper proposes VarArray, an array-geometry-agnostic speech separation neural network model. The proposed model is applicable to any number of microphones without retraining while leveraging the nonlinear correlation between the input channels. The proposed method adapts different elements that were proposed before separately, including transform-average-concatenate, conformer speech separation, and inter-channel phase differences, and combines them in an efficient and cohesive way. Large-scale evaluation was performed with two real meeting transcription tasks by using a fully developed transcription system requiring no prior knowledge such as reference segmentations, which allowed us to measure the impact that the continuous speech separation system could have in realistic settings. The proposed model outperformed a previous approach to array-geometry-agnostic modeling for all of the geometry configurations considered, achieving asclite-based speaker-agnostic word error rates of 17.5% and 20.4% for the AMI development and evaluation sets, respectively, in the end-to-end setting using no ground-truth segmentations.


翻译:使用麦克风阵列持续语音分离在处理自然谈话记录抄录中的语音重叠问题时很有希望。本文提议了VarArray, 这是一种不要求任何先前知识的阵列地测量语言分离神经网络模型。 提议的模式适用于任何数量的麦克风,无需再培训,同时利用输入渠道之间的非线性相关性。 提议的方法对以前分别提出的不同要素进行了调整,包括变换平均相、相近者语音分离和频道间相位差异,并以高效和一致的方式将其组合在一起。 大规模评价有两个实际会议记录任务,即使用完全开发的转录系统,不需要任何先前的知识,例如参考区段,从而使我们能够测量连续语音分离系统在现实环境中可能产生的影响。 拟议的模式比以前对所考虑的所有几何测量配置的阵列地测量测量学-诺异模型采用了一种方法,在终端至终端设置中,不使用地面分段,分别实现17.5%和20.4%的AMI开发和评价装置的基于语言的语音的词误差率率。

0
下载
关闭预览

相关内容

让 iOS 8 和 OS X Yosemite 无缝切换的一个新特性。 > Apple products have always been designed to work together beautifully. But now they may really surprise you. With iOS 8 and OS X Yosemite, you’ll be able to do more wonderful things than ever before.

Source: Apple - iOS 8
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
110+阅读 · 2020年5月15日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
carla无人驾驶模拟中文项目 carla_simulator_Chinese
CreateAMind
3+阅读 · 2018年1月30日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
23+阅读 · 2021年3月4日
Arxiv
8+阅读 · 2018年11月27日
Arxiv
5+阅读 · 2018年10月4日
VIP会员
Top
微信扫码咨询专知VIP会员