【EMNLP2020最佳论文】无声语音的数字化发声 - 专知VIP

会员服务 ·

1

EMNLP 2020 · 最佳论文 · 数字化发声 ·

2020 年 11 月 20 日

【EMNLP2020最佳论文】无声语音的数字化发声

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

论文链接：https://www.aclweb.org/anthology/2020.emnlp-main.445.pdf

作者：David Gaddy、Dan Klein（加州大学伯克利分校）

在最佳论文中，来自加州大学伯克利分校的研究者们探究了无声语音的数字化发声任务，其中基于捕获肌肉冲动的肌电图（EMG）传感器度量，将无声口语单词转换为可听语音。尽管此前已经有利用有声语音期间收集的 EMG 训练语音合成模型的研究，但该研究首次利用了在无声发音期间收集的 EMG 进行训练。

模型中所使用数据的三个组成部分。

具体而言，研究者提出了一种通过将音频目标从有声信号转换为无声信号来对无声 EMG 进行训练的方法。与仅使用有声数据进行训练的基线方法相比，该方法显著提升了从无声 EMG 中生成音频的清晰度。在某种数据条件下，该方法将转录词误差率从 64% 降至 4%；另一种数据条件下，转录词误差率从 88% 降至 68%。为了促进这一研究任务的进一步发展，该研究已经共享了无声和有声面部 EMG 度量的新数据集。

成为VIP会员查看完整内容

12

相关内容

EMNLP 2020

【AAAI2021】层次推理图神经网络

【AAAI2021】层次推理图神经网络

专知会员服务

70+阅读 · 2020年12月27日

【AAAI2021】低资源医疗对话生成的图演化元学习

【AAAI2021】低资源医疗对话生成的图演化元学习

专知会员服务

48+阅读 · 2020年12月26日

【EMNLP 2020 】基于反事实推理的开放域生成式对话

专知会员服务

27+阅读 · 2020年11月5日

最新《低资源自然语言处理》综述论文，21页pdf

最新《低资源自然语言处理》综述论文，21页pdf

专知会员服务

61+阅读 · 2020年10月27日

【EMNLP 2020】融合自训练和自监督方法的无监督文本顺滑研究

【EMNLP 2020】融合自训练和自监督方法的无监督文本顺滑研究

专知会员服务

24+阅读 · 2020年10月18日

自然语言处理顶会EMNLP2020接受论文出炉！754篇录用！哈工大SCIR九篇长文被接受

自然语言处理顶会EMNLP2020接受论文出炉！754篇录用！哈工大SCIR九篇长文被接受

专知会员服务

34+阅读 · 2020年9月17日

CVPR 2020 最佳论文与最佳学生论文！

CVPR 2020 最佳论文与最佳学生论文！

专知会员服务

36+阅读 · 2020年6月17日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知会员服务

24+阅读 · 2020年3月31日

【元学习 | ICASSP2020提交论文】学习低资源语音识别，国立台湾大学 | 李宏毅

【元学习 | ICASSP2020提交论文】学习低资源语音识别，国立台湾大学 | 李宏毅

专知会员服务

57+阅读 · 2019年11月21日

【EMNLP 2019 最佳论文】信息瓶颈专门化单词嵌入（用于解析）（Specializing Word Embeddings（for Parsing）by Information Bottleneck）

【EMNLP 2019 最佳论文】信息瓶颈专门化单词嵌入（用于解析）（Specializing Word Embeddings（for Parsing）by Information Bottleneck）

专知会员服务

24+阅读 · 2019年11月20日

Interspeech 2019 | 基于多模态对齐的语音情感识别

Interspeech 2019 | 基于多模态对齐的语音情感识别

AI科技评论

23+阅读 · 2019年9月21日

ICML 2019 | 微软提出极低资源下语音合成与识别新方法，小语种也不怕没数据了！

ICML 2019 | 微软提出极低资源下语音合成与识别新方法，小语种也不怕没数据了！

微软研究院AI头条

8+阅读 · 2019年5月15日

Nature重磅：华裔科学家成功解码脑电波，AI直接从大脑中合成语音

Nature重磅：华裔科学家成功解码脑电波，AI直接从大脑中合成语音

新智元

4+阅读 · 2019年4月25日

业界 | 谷歌用新的语音数据扩增技术大幅提升语音识别准确率

业界 | 谷歌用新的语音数据扩增技术大幅提升语音识别准确率

AI研习社

6+阅读 · 2019年4月24日

想要出专辑、开个唱？试一下 Facebook「歌手变声器」

想要出专辑、开个唱？试一下 Facebook「歌手变声器」

机器之心

3+阅读 · 2019年4月17日

谷歌BERT斩获最佳长论文！自然语言顶会NAACL2019最佳论文5篇出炉

谷歌BERT斩获最佳长论文！自然语言顶会NAACL2019最佳论文5篇出炉

专知

5+阅读 · 2019年4月11日

1400小时开源语音数据集，你想要都在这儿

1400小时开源语音数据集，你想要都在这儿

AI100

18+阅读 · 2019年3月1日

微软文本-语音合成转换技术新里程碑！完美再现真人声调

微软文本-语音合成转换技术新里程碑！完美再现真人声调

新智元

4+阅读 · 2018年9月25日

【EMNLP2018最佳论文出炉】Google语义角色标注&Facebook无监督机器翻译分别斩获

【EMNLP2018最佳论文出炉】Google语义角色标注&Facebook无监督机器翻译分别斩获

哈工大SCIR

5+阅读 · 2018年9月21日

ICASSP 2018 | 思必驰和上交大提出口语语义理解新方法：基于对抗多任务学习的半监督训练

ICASSP 2018 | 思必驰和上交大提出口语语义理解新方法：基于对抗多任务学习的半监督训练

机器之心

6+阅读 · 2018年4月25日

Learning Optimal Representations with the Decodable Information Bottleneck

Arxiv

6+阅读 · 2020年9月27日

Action Segmentation with Joint Self-Supervised Temporal Domain Adaptation

Arxiv

6+阅读 · 2020年3月18日

AuxNet: Auxiliary tasks enhanced Semantic Segmentation for Automated Driving

AuxNet: Auxiliary tasks enhanced Semantic Segmentation for Automated Driving

Arxiv

4+阅读 · 2019年1月17日

Learning with Interpretable Structure from RNN

Arxiv

19+阅读 · 2018年10月25日

Supervised and Unsupervised Transfer Learning for Question Answering

Arxiv

4+阅读 · 2018年4月21日

Arxiv

7+阅读 · 2018年1月24日

Analyzing Language Learned by an Active Question Answering Agent

Arxiv

6+阅读 · 2018年1月23日

State-of-the-art Speech Recognition With Sequence-to-Sequence Models

Arxiv

7+阅读 · 2018年1月18日

Large-Scale Object Discovery and Detector Adaptation from Unlabeled Video

Arxiv

3+阅读 · 2017年12月23日

Mitigating the Impact of Speech Recognition Errors on Chatbot using Sequence-to-Sequence Model

Arxiv

4+阅读 · 2017年12月2日

VIP会员

相关主题

数字化发声

相关VIP内容

【AAAI2021】层次推理图神经网络

【AAAI2021】层次推理图神经网络

专知会员服务

70+阅读 · 2020年12月27日

【AAAI2021】低资源医疗对话生成的图演化元学习

【AAAI2021】低资源医疗对话生成的图演化元学习

专知会员服务

48+阅读 · 2020年12月26日

【EMNLP 2020 】基于反事实推理的开放域生成式对话

专知会员服务

27+阅读 · 2020年11月5日

最新《低资源自然语言处理》综述论文，21页pdf

最新《低资源自然语言处理》综述论文，21页pdf

专知会员服务

61+阅读 · 2020年10月27日

【EMNLP 2020】融合自训练和自监督方法的无监督文本顺滑研究

【EMNLP 2020】融合自训练和自监督方法的无监督文本顺滑研究

专知会员服务

24+阅读 · 2020年10月18日

自然语言处理顶会EMNLP2020接受论文出炉！754篇录用！哈工大SCIR九篇长文被接受

自然语言处理顶会EMNLP2020接受论文出炉！754篇录用！哈工大SCIR九篇长文被接受

专知会员服务

34+阅读 · 2020年9月17日

CVPR 2020 最佳论文与最佳学生论文！

CVPR 2020 最佳论文与最佳学生论文！

专知会员服务

36+阅读 · 2020年6月17日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知会员服务

24+阅读 · 2020年3月31日

【元学习 | ICASSP2020提交论文】学习低资源语音识别，国立台湾大学 | 李宏毅

【元学习 | ICASSP2020提交论文】学习低资源语音识别，国立台湾大学 | 李宏毅

专知会员服务

57+阅读 · 2019年11月21日

【EMNLP 2019 最佳论文】信息瓶颈专门化单词嵌入（用于解析）（Specializing Word Embeddings（for Parsing）by Information Bottleneck）

【EMNLP 2019 最佳论文】信息瓶颈专门化单词嵌入（用于解析）（Specializing Word Embeddings（for Parsing）by Information Bottleneck）

专知会员服务

24+阅读 · 2019年11月20日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】数据驱动决策中的激励、信息与不确定性

DGP双粒度提示框架：图增强大模型助力欺诈检测

【ICCV2025】ESSENTIAL：用于视频类增量学习的情景记忆与语义记忆整合

唯快不破：大型语言模型高效架构综述

相关资讯

Interspeech 2019 | 基于多模态对齐的语音情感识别

Interspeech 2019 | 基于多模态对齐的语音情感识别

AI科技评论

23+阅读 · 2019年9月21日

ICML 2019 | 微软提出极低资源下语音合成与识别新方法，小语种也不怕没数据了！

ICML 2019 | 微软提出极低资源下语音合成与识别新方法，小语种也不怕没数据了！

微软研究院AI头条

8+阅读 · 2019年5月15日

Nature重磅：华裔科学家成功解码脑电波，AI直接从大脑中合成语音

Nature重磅：华裔科学家成功解码脑电波，AI直接从大脑中合成语音

新智元

4+阅读 · 2019年4月25日

业界 | 谷歌用新的语音数据扩增技术大幅提升语音识别准确率

业界 | 谷歌用新的语音数据扩增技术大幅提升语音识别准确率

AI研习社

6+阅读 · 2019年4月24日

想要出专辑、开个唱？试一下 Facebook「歌手变声器」

想要出专辑、开个唱？试一下 Facebook「歌手变声器」

机器之心

3+阅读 · 2019年4月17日

谷歌BERT斩获最佳长论文！自然语言顶会NAACL2019最佳论文5篇出炉

谷歌BERT斩获最佳长论文！自然语言顶会NAACL2019最佳论文5篇出炉

专知

5+阅读 · 2019年4月11日

1400小时开源语音数据集，你想要都在这儿

1400小时开源语音数据集，你想要都在这儿

AI100

18+阅读 · 2019年3月1日

微软文本-语音合成转换技术新里程碑！完美再现真人声调

微软文本-语音合成转换技术新里程碑！完美再现真人声调

新智元

4+阅读 · 2018年9月25日

【EMNLP2018最佳论文出炉】Google语义角色标注&Facebook无监督机器翻译分别斩获

【EMNLP2018最佳论文出炉】Google语义角色标注&Facebook无监督机器翻译分别斩获

哈工大SCIR

5+阅读 · 2018年9月21日

ICASSP 2018 | 思必驰和上交大提出口语语义理解新方法：基于对抗多任务学习的半监督训练

ICASSP 2018 | 思必驰和上交大提出口语语义理解新方法：基于对抗多任务学习的半监督训练

机器之心

6+阅读 · 2018年4月25日

相关论文

Learning Optimal Representations with the Decodable Information Bottleneck

Arxiv

6+阅读 · 2020年9月27日

Action Segmentation with Joint Self-Supervised Temporal Domain Adaptation

Arxiv

6+阅读 · 2020年3月18日

AuxNet: Auxiliary tasks enhanced Semantic Segmentation for Automated Driving

AuxNet: Auxiliary tasks enhanced Semantic Segmentation for Automated Driving

Arxiv

4+阅读 · 2019年1月17日

Learning with Interpretable Structure from RNN

Arxiv

19+阅读 · 2018年10月25日

Supervised and Unsupervised Transfer Learning for Question Answering

Arxiv

4+阅读 · 2018年4月21日

Arxiv

7+阅读 · 2018年1月24日

Analyzing Language Learned by an Active Question Answering Agent

Arxiv

6+阅读 · 2018年1月23日

State-of-the-art Speech Recognition With Sequence-to-Sequence Models

Arxiv

7+阅读 · 2018年1月18日

Large-Scale Object Discovery and Detector Adaptation from Unlabeled Video

Arxiv

3+阅读 · 2017年12月23日

Mitigating the Impact of Speech Recognition Errors on Chatbot using Sequence-to-Sequence Model

Arxiv

4+阅读 · 2017年12月2日

微信扫码咨询专知VIP会员