In this paper, we present WenetSpeech, a multi-domain Mandarin corpus consisting of 10000+ hours high-quality labeled speech, 2400+ hours weakly labeled speech, and about 10000 hours unlabeled speech, with 22400+ hours in total. We collect the data from YouTube and Podcast, which covers a variety of speaking styles, scenarios, domains, topics, and noisy conditions. An optical character recognition (OCR) based method is introduced to generate the audio/text segmentation candidates for the YouTube data on its corresponding video captions, while a high-quality ASR transcription system is used to generate audio/text pair candidates for the Podcast data. Then we propose a novel end-to-end label error detection approach to further validate and filter the candidates. We also provide three manually labelled high-quality test sets along with WenetSpeech for evaluation -- Dev for cross-validation purpose in training, Test_Net, collected from Internet for matched test, and Test\_Meeting, recorded from real meetings for more challenging mismatched test. Baseline systems trained with WenetSpeech are provided for three popular speech recognition toolkits, namely Kaldi, ESPnet, and WeNet, and recognition results on the three test sets are also provided as benchmarks. To the best of our knowledge, WenetSpeech is the current largest open-sourced Mandarin speech corpus with transcriptions, which benefits research on production-level speech recognition.


翻译:在本文中,我们展示了WenetSpeech,这是由10000+小时高质量标签演讲、24+小时低标签演讲和大约10000小时无标签演讲组成的多功能文体文体。我们收集了来自YouTube和Podcast的数据,这些数据涵盖各种语言风格、情景、领域、专题和吵闹条件。我们采用了光学字符识别(OCR)法,在相应的视频字幕中为YouTube数据生成音频/文字分解候选人,同时使用高质量的ASR抄录系统为Podcast数据生成音频/文本配对候选人。然后我们提出了一个新的端对端标签误检方法,以进一步验证和过滤候选人。我们还提供了三个人工贴有标签的高品质测试套,与WenetSpeech一起用于评价 -- -- 用于培训的交叉校验目的设计、测试网,从互联网上收集测试;Test_MeechMeelsm,记录为更具挑战性的测试记录。与WenetSpeetSpeech的基线系统进行了培训,并提供了三种最大规模的语音识别识别工具。

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
【大规模数据系统,552页ppt】Large-scale Data Systems
专知会员服务
60+阅读 · 2019年12月21日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
IJCAI2020信息抽取相关论文合集
AINLP
6+阅读 · 2020年6月16日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
搜狗开源机器阅读理解工具箱
专知
19+阅读 · 2019年5月16日
2018机器学习开源资源盘点
专知
6+阅读 · 2019年2月2日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
自然语言处理领域重要论文&资源全索引
机器之心
5+阅读 · 2017年10月14日
Arxiv
0+阅读 · 2021年12月14日
VIP会员
相关VIP内容
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
IJCAI2020信息抽取相关论文合集
AINLP
6+阅读 · 2020年6月16日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
搜狗开源机器阅读理解工具箱
专知
19+阅读 · 2019年5月16日
2018机器学习开源资源盘点
专知
6+阅读 · 2019年2月2日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
自然语言处理领域重要论文&资源全索引
机器之心
5+阅读 · 2017年10月14日
Top
微信扫码咨询专知VIP会员