We present the Multilingual TEDx corpus, built to support speech recognition (ASR) and speech translation (ST) research across many non-English source languages. The corpus is a collection of audio recordings from TEDx talks in 8 source languages. We segment transcripts into sentences and align them to the source-language audio and target-language translations. The corpus is released along with open-sourced code enabling extension to new talks and languages as they become available. Our corpus creation methodology can be applied to more languages than previous work, and creates multi-way parallel evaluation sets. We provide baselines in multiple ASR and ST settings, including multilingual models to improve translation performance for low-resource language pairs.


翻译:我们展示了多语言TEDx文集,该文集是为支持许多非英语语言语言的语音识别和语音翻译研究而建立的,以8种源语言收集TEDx会谈的录音记录,我们将笔录分为句子,并将其与原始语言的音频和目标语言翻译相统一,该文集与开放源代码一起发布,允许在新语和语言可用时将其扩展为新的话语和语言。我们的创制方法可以适用于比以往更多的语言,并创建多路平行的评价组。我们在多种ASR和ST设置中提供了基线,包括提高低资源语言对口翻译功能的多语言模型。

0
下载
关闭预览

相关内容

  • 在”传递优秀思想“这一价值的指引下,TED推出了一个叫TEDx的项目。所谓TEDx,就是指那些由本地TED粉丝自愿发起、自行组织的小型聚会,让本地的TED粉丝能够聚到一起,共享TED一刻。
  • TED不会参与TEDx活动的组织,但是会对活动组织者给予指导和意见。
  • TEDx的价值交流、分享、互动、学习,此乃TEDx的核心价值。
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
MIT新书《强化学习与最优控制》
专知会员服务
272+阅读 · 2019年10月9日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
推荐|深度强化学习聊天机器人(附论文)!
全球人工智能
4+阅读 · 2018年1月30日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
自然语言处理 (NLP)资源大全
机械鸡
35+阅读 · 2017年9月17日
Arxiv
0+阅读 · 2021年3月29日
Arxiv
7+阅读 · 2018年6月1日
Arxiv
6+阅读 · 2018年2月26日
VIP会员
相关VIP内容
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
MIT新书《强化学习与最优控制》
专知会员服务
272+阅读 · 2019年10月9日
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
推荐|深度强化学习聊天机器人(附论文)!
全球人工智能
4+阅读 · 2018年1月30日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
自然语言处理 (NLP)资源大全
机械鸡
35+阅读 · 2017年9月17日
Top
微信扫码咨询专知VIP会员