We present the Multilingual TEDx corpus, built to support speech recognition (ASR) and speech translation (ST) research across many non-English source languages. The corpus is a collection of audio recordings from TEDx talks in 8 source languages. We segment transcripts into sentences and align them to the source-language audio and target-language translations. The corpus is released along with open-sourced code enabling extension to new talks and languages as they become available. Our corpus creation methodology can be applied to more languages than previous work, and creates multi-way parallel evaluation sets. We provide baselines in multiple ASR and ST settings, including multilingual models to improve translation performance for low-resource language pairs.


翻译:我们展示了多语言TEDx文集,该文集是为支持许多非英语语言语言的语音识别和语音翻译研究而建立的,以8种源语言收集TEDx会谈的录音记录,我们将笔录分为句子,并将其与原始语言的音频和目标语言翻译相统一,该文集与开放源代码一起发布,允许在新语和语言可用时将其扩展为新的话语和语言。我们的创制方法可以适用于比以往更多的语言,并创建多路平行的评价组。我们在多种ASR和ST设置中提供了基线,包括提高低资源语言对口翻译功能的多语言模型。

0
下载
关闭预览

相关内容

  • 在”传递优秀思想“这一价值的指引下,TED推出了一个叫TEDx的项目。所谓TEDx,就是指那些由本地TED粉丝自愿发起、自行组织的小型聚会,让本地的TED粉丝能够聚到一起,共享TED一刻。
  • TED不会参与TEDx活动的组织,但是会对活动组织者给予指导和意见。
  • TEDx的价值交流、分享、互动、学习,此乃TEDx的核心价值。
专知会员服务
26+阅读 · 2020年9月9日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
【推荐】Python机器学习生态圈(Scikit-Learn相关项目)
机器学习研究会
6+阅读 · 2017年8月23日
A Survey on Deep Learning for Named Entity Recognition
Arxiv
73+阅读 · 2018年12月22日
Arxiv
8+阅读 · 2018年11月27日
Arxiv
3+阅读 · 2018年5月28日
VIP会员
相关VIP内容
专知会员服务
26+阅读 · 2020年9月9日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Top
微信扫码咨询专知VIP会员