论文链接:https://www.aclweb.org/anthology/2020.emnlp-main.445.pdf
作者:David Gaddy、Dan Klein(加州大学伯克利分校)
在最佳论文中,来自加州大学伯克利分校的研究者们探究了无声语音的数字化发声任务,其中基于捕获肌肉冲动的肌电图(EMG)传感器度量,将无声口语单词转换为可听语音。尽管此前已经有利用有声语音期间收集的 EMG 训练语音合成模型的研究,但该研究首次利用了在无声发音期间收集的 EMG 进行训练。
模型中所使用数据的三个组成部分。
具体而言,研究者提出了一种通过将音频目标从有声信号转换为无声信号来对无声 EMG 进行训练的方法。与仅使用有声数据进行训练的基线方法相比,该方法显著提升了从无声 EMG 中生成音频的清晰度。在某种数据条件下,该方法将转录词误差率从 64% 降至 4%;另一种数据条件下,转录词误差率从 88% 降至 68%。为了促进这一研究任务的进一步发展,该研究已经共享了无声和有声面部 EMG 度量的新数据集。