Machine recognition of an atypical speech like whispered speech, is a challenging task. We introduce whisper-to-natural-speech conversion using sequence-to-sequence approach by proposing enhanced transformer architecture, which uses both parallel and non-parallel data. We investigate different features like Mel frequency cepstral coefficients and smoothed spectral features. The proposed networks are trained end-to-end using supervised approach for feature-to-feature transformation. Further, we also investigate the effectiveness of embedded auxillary decoder used after N encoder sub-layers, trained with the frame-level objective function for identifying source phoneme labels. We show results on opensource wTIMIT and CHAINS datasets by measuring word error rate using end-to-end ASR and also BLEU scores for the generated speech. Alternatively, we also propose a novel method to measure spectral shape of it by measuring formant distributions w.r.t. reference speech, as formant divergence metric. We have found whisper-to-natural converted speech formants probability distribution is similar to the groundtruth distribution. To the authors' best knowledge, this is the first time enhanced transformer has been proposed, both with and without auxiliary decoder for whisper-to-natural-speech conversion and vice versa.
翻译:微声语音等非典型语言的机器识别是一项艰巨的任务。 我们通过使用平行和非平行数据的强化变压器结构,引入了低语到自然语音转换,方法是提出强化的变压器结构,同时使用平行和非平行数据。 我们调查了梅尔频率 cepstral 系数和光谱特征等不同特征。 拟议的网络经过培训,使用监管的方法对地貌到地貌转换进行端对端处理。 此外, 我们还调查了N 编码器子次层之后使用的嵌入的助听器解码器的有效性,并经过对确定源电话标签的框架级目标功能的培训。 我们展示了开源 WTIMIT 和 CHAINS 数据集的结果,方法是使用终端到终端的 ASR 和 平滑光谱的频谱测量字差率。 或者,我们还提出了一种新的方法,通过测量窗体分布 w.r.t.t.t. 参考演讲, 来测量其光谱形状,作为形成偏差度测量。 我们发现, 耳语向自然转换的表达器概率分布与地面图象相相似。 向后, 和再转换最佳的变换式是, 变换式, 变换式的, 和变式变式变式 变式 变式 变式的 变式的 变式 变式 变式变式变式的 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式