Speaker-attributed automatic speech recognition (SA-ASR) is a task to recognize "who spoke what" from multi-talker recordings. An SA-ASR system usually consists of multiple modules such as speech separation, speaker diarization and ASR. On the other hand, considering the joint optimization, an end-to-end (E2E) SA-ASR model has recently been proposed with promising results on simulation data. In this paper, we present our recent study on the comparison of such modular and joint approaches towards SA-ASR on real monaural recordings. We develop state-of-the-art SA-ASR systems for both modular and joint approaches by leveraging large-scale training data, including 75 thousand hours of ASR training data and the VoxCeleb corpus for speaker representation learning. We also propose a new pipeline that performs the E2E SA-ASR model after speaker clustering. Our evaluation on the AMI meeting corpus reveals that after fine-tuning with a small real data, the joint system performs 8.9--29.9% better in accuracy compared to the best modular system while the modular system performs better before such fine-tuning. We also conduct various error analyses to show the remaining issues for the monaural SA-ASR.


翻译:由议长提供的自动语音识别(SA-ASR)是一项任务,旨在识别“谁能讲什么”来自多对话者录音的“谁能讲什么”的工作。一个SA-ASR系统通常由多个模块组成,如语音分离、语音diariz化和ASR。另一方面,考虑到联合优化,最近提出了一个终端到终端(E2E)SA-ASR模型,在模拟数据方面有令人乐观的结果。我们在本文件中介绍了我们最近关于此类模块和对SA-ASR的实时时尚记录采取联合方法的比较研究。我们开发了最先进的SA-ASR模块化和联合方法系统,利用大型培训数据,包括75 000小时的ASR培训数据和用于演讲人代表学习的VoxCelebampe。我们还提议了一个新的管道,在发言者组合后实施E2E SA-ASR模型。我们对AMI会议材料的评估表明,在对小型真实数据进行微调后,联合系统比最佳模块化系统精确度提高了8.9-29.9 %,同时模块化系统在微调之前运行更好的模块化系统。我们还进行了各种错误分析。

0
下载
关闭预览

相关内容

Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
111+阅读 · 2020年5月15日
因果图,Causal Graphs,52页ppt
专知会员服务
248+阅读 · 2020年4月19日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
已删除
将门创投
11+阅读 · 2019年7月4日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
推荐|Andrew Ng计算机视觉教程总结
全球人工智能
3+阅读 · 2017年11月23日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年11月7日
Arxiv
8+阅读 · 2018年11月27日
VIP会员
相关资讯
已删除
将门创投
11+阅读 · 2019年7月4日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
推荐|Andrew Ng计算机视觉教程总结
全球人工智能
3+阅读 · 2017年11月23日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员