Machine recognition of an atypical speech like whispered speech, is a challenging task. We introduce whisper-to-natural-speech conversion using sequence-to-sequence approach by proposing enhanced transformer architecture, which uses both parallel and non-parallel data. We investigate different features like Mel frequency cepstral coefficients and smoothed spectral features. The proposed networks are trained end-to-end using supervised approach for feature-to-feature transformation. Further, we also investigate the effectiveness of embedded auxillary decoder used after N encoder sub-layers, trained with the frame-level objective function for identifying source phoneme labels. We show results on opensource wTIMIT and CHAINS datasets by measuring word error rate using end-to-end ASR and also BLEU scores for the generated speech. Alternatively, we also propose a novel method to measure spectral shape of it by measuring formant distributions w.r.t. reference speech, as formant divergence metric. We have found whisper-to-natural converted speech formants probability distribution is similar to the groundtruth distribution. To the authors' best knowledge, this is the first time enhanced transformer has been proposed, both with and without auxiliary decoder for whisper-to-natural-speech conversion and vice versa.


翻译:微声语音等非典型语言的机器识别是一项艰巨的任务。 我们通过使用平行和非平行数据的强化变压器结构,引入了低语到自然语音转换,方法是提出强化的变压器结构,同时使用平行和非平行数据。 我们调查了梅尔频率 cepstral 系数和光谱特征等不同特征。 拟议的网络经过培训,使用监管的方法对地貌到地貌转换进行端对端处理。 此外, 我们还调查了N 编码器子次层之后使用的嵌入的助听器解码器的有效性,并经过对确定源电话标签的框架级目标功能的培训。 我们展示了开源 WTIMIT 和 CHAINS 数据集的结果,方法是使用终端到终端的 ASR 和 平滑光谱的频谱测量字差率。 或者,我们还提出了一种新的方法,通过测量窗体分布 w.r.t.t.t. 参考演讲, 来测量其光谱形状,作为形成偏差度测量。 我们发现, 耳语向自然转换的表达器概率分布与地面图象相相似。 向后, 和再转换最佳的变换式是, 变换式, 变换式的, 和变式变式变式 变式 变式 变式的 变式的 变式 变式 变式变式变式的 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式 变式

0
下载
关闭预览

相关内容

Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
carla 学习笔记
CreateAMind
9+阅读 · 2018年2月7日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
6+阅读 · 2020年4月14日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
3+阅读 · 2018年11月13日
VIP会员
相关VIP内容
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
相关资讯
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
carla 学习笔记
CreateAMind
9+阅读 · 2018年2月7日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员