This paper summarizes the JHU team's efforts in tracks 1 and 2 of the CHiME-6 challenge for distant multi-microphone conversational speech diarization and recognition in everyday home environments. We explore multi-array processing techniques at each stage of the pipeline, such as multi-array guided source separation (GSS) for enhancement and acoustic model training data, posterior fusion for speech activity detection, PLDA score fusion for diarization, and lattice combination for automatic speech recognition (ASR). We also report results with different acoustic model architectures, and integrate other techniques such as online multi-channel weighted prediction error (WPE) dereverberation and variational Bayes-hidden Markov model (VB-HMM) based overlap assignment to deal with reverberation and overlapping speakers, respectively. As a result of these efforts, our ASR systems achieve a word error rate of 40.5% and 67.5% on tracks 1 and 2, respectively, on the evaluation set. This is an improvement of 10.8% and 10.4% absolute, over the challenge baselines for the respective tracks.


翻译:本文总结了JHU团队在CHime-6轨道1和2对远程多声话话话话话话的分辨和在日常家庭环境中的识别方面所做的努力。我们探索了管道每个阶段的多片处理技术,例如用于增强和声学模型培训数据的多片导源分离(GSS),用于语音活动探测的后方聚合、用于分解的PLDA分数融合和用于自动语音识别的拉特斯组合(ASR)。我们还报告了不同声学模型结构的结果,并结合了其他技术,例如基于重音和重复发言的在线多声道加权预测错误(WPE)和变异波波波波射-希登马可夫模式(VB-HMM)等。由于这些努力,我们的ASR系统在评估集的轨道1和2上分别实现了40.5%和67.5%的字差率。这比各个轨道的挑战基线分别提高了10.8%和10.4%。

0
下载
关闭预览

相关内容

约翰霍普金斯大学 JHU 位于美国马里兰州巴尔的摩,1876 年建立,被认为是美国第一所研究型大学,NSF 连续 31 年将该校列为全美科研经费开支最高的大学。约翰霍普金斯大学在工程,医学、公共卫生、生物医药等領域闻名世界。学术气氛活跃,计算机系学生将有机会与各领域学者展开跨领域研究。
【论文推荐】文本摘要简述
专知会员服务
68+阅读 · 2020年7月20日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
AI Challenger 2017 奇遇记
AINLP
5+阅读 · 2018年6月10日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
自然语言处理领域重要研究及资源全索引!
数据派THU
7+阅读 · 2017年10月22日
自然语言处理领域重要论文&资源全索引
机器之心
5+阅读 · 2017年10月14日
Phase-aware Speech Enhancement with Deep Complex U-Net
Arxiv
8+阅读 · 2018年11月27日
Arxiv
3+阅读 · 2018年6月19日
VIP会员
相关VIP内容
【论文推荐】文本摘要简述
专知会员服务
68+阅读 · 2020年7月20日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
AI Challenger 2017 奇遇记
AINLP
5+阅读 · 2018年6月10日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
自然语言处理领域重要研究及资源全索引!
数据派THU
7+阅读 · 2017年10月22日
自然语言处理领域重要论文&资源全索引
机器之心
5+阅读 · 2017年10月14日
Top
微信扫码咨询专知VIP会员