The DIVA model is a computational model of speech motor control that combines a simulation of the brain regions responsible for speech production with a model of the human vocal tract. The model is currently implemented in Matlab Simulink; however, this is less than ideal as most of the development in speech technology research is done in Python. This means there is a wealth of machine learning tools which are freely available in the Python ecosystem that cannot be easily integrated with DIVA. We present TorchDIVA, a full rebuild of DIVA in Python using PyTorch tensors. DIVA source code was directly translated from Matlab to Python, and built-in Simulink signal blocks were implemented from scratch. After implementation, the accuracy of each module was evaluated via systematic block-by-block validation. The TorchDIVA model is shown to produce outputs that closely match those of the original DIVA model, with a negligible difference between the two. We additionally present an example of the extensibility of TorchDIVA as a research platform. Speech quality enhancement in TorchDIVA is achieved through an integration with an existing PyTorch generative vocoder called DiffWave. A modified DiffWave mel-spectrum upsampler was trained on human speech waveforms and conditioned on the TorchDIVA speech production. The results indicate improved speech quality metrics in the DiffWave-enhanced output as compared to the baseline. This enhancement would have been difficult or impossible to accomplish in the original Matlab implementation. This proof-of-concept demonstrates the value TorchDIVA will bring to the research community. Researchers can download the new implementation at: https://github.com/skinahan/DIVA_PyTorch
翻译:DIVA 模型是一种语音发动机控制的计算模型,它将模拟负责语音制作的大脑区域与模拟人类声带的模型结合起来。该模型目前正在Matlab Simmlink 中实施;然而,由于语言技术研究的大多数发展是在Python 中完成的,这一模型并不理想。这意味着在Python 生态系统中可以免费获得大量机器学习工具,这些工具与DIVA 的原始模型不易整合。我们介绍了TorchDDIVA, 利用PyToirch 高压器在Python 中全面重建DIVA。DIVA源代码直接从 Matlab 翻译成Python,而Simmillink 信号块则从零开始实施。实施后,每个模块的准确性通过系统的逐个区校校校校校校校校校校校校校校校校校校校校。在Tr TOVIVA 的演示文质量的升级,在DVADVADRVA 中将演示到现有的DVADVA IMVA IMVD IMVDR 的升级的升级版本的版本,将演示DVDVA 版本的版本的版本的版本的版本的版本的版本,将演示的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化的版本化