论文链接:https://www.aclweb.org/anthology/2020.emnlp-main.445.pdf

作者:David Gaddy、Dan Klein(加州大学伯克利分校)

在最佳论文中,来自加州大学伯克利分校的研究者们探究了无声语音的数字化发声任务,其中基于捕获肌肉冲动的肌电图(EMG)传感器度量,将无声口语单词转换为可听语音。尽管此前已经有利用有声语音期间收集的 EMG 训练语音合成模型的研究,但该研究首次利用了在无声发音期间收集的 EMG 进行训练。

模型中所使用数据的三个组成部分。

具体而言,研究者提出了一种通过将音频目标从有声信号转换为无声信号来对无声 EMG 进行训练的方法。与仅使用有声数据进行训练的基线方法相比,该方法显著提升了从无声 EMG 中生成音频的清晰度。在某种数据条件下,该方法将转录词误差率从 64% 降至 4%;另一种数据条件下,转录词误差率从 88% 降至 68%。为了促进这一研究任务的进一步发展,该研究已经共享了无声和有声面部 EMG 度量的新数据集。

成为VIP会员查看完整内容
12

相关内容

【AAAI2021】层次推理图神经网络
专知会员服务
70+阅读 · 2020年12月27日
【AAAI2021】低资源医疗对话生成的图演化元学习
专知会员服务
48+阅读 · 2020年12月26日
专知会员服务
27+阅读 · 2020年11月5日
最新《低资源自然语言处理》综述论文,21页pdf
专知会员服务
60+阅读 · 2020年10月27日
CVPR 2020 最佳论文与最佳学生论文!
专知会员服务
36+阅读 · 2020年6月17日
Interspeech 2019 | 基于多模态对齐的语音情感识别
AI科技评论
23+阅读 · 2019年9月21日
Arxiv
19+阅读 · 2018年10月25日
Arxiv
7+阅读 · 2018年1月24日
VIP会员
微信扫码咨询专知VIP会员