This paper presents BSTC (Baidu Speech Translation Corpus), a large-scale Chinese-English speech translation dataset. This dataset is constructed based on a collection of licensed videos of talks or lectures, including about 68 hours of Mandarin data, their manual transcripts and translations into English, as well as automated transcripts by an automatic speech recognition (ASR) model. We have further asked three experienced interpreters to simultaneously interpret the testing talks in a mock conference setting. This corpus is expected to promote the research of automatic simultaneous translation as well as the development of practical systems. We have organized simultaneous translation tasks and used this corpus to evaluate automatic simultaneous translation systems.


翻译:本文介绍BSTC(Baidu Speaking Corpus),这是一个大型中文和英文语音翻译数据集,该数据集基于收集经许可的演讲或讲座录像,包括大约68小时的普通话数据、其人工记录誊本和英文译文,以及自动语音识别模式的自动记录誊本,我们进一步请三名有经验的口译员在模拟会议环境中同时对测试会谈进行口译,预期该文集将促进自动同步翻译的研究以及实用系统的开发,我们组织了同步翻译任务,并利用该文集评价自动同步翻译系统。

0
下载
关闭预览

相关内容

通过计算机进行不同语言之间的直接语音翻译,辅助不同语言背景的人们进行沟通已经成为世界各国研究的重点。 和一般的文本翻译不同,语音翻译需要把语音识别、机器翻译和语音合成三大技术进行集成,具有很大的挑战性。
自然语言处理顶会COLING2020最佳论文出炉!
专知会员服务
23+阅读 · 2020年12月12日
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
自然语言处理NLP之旅(NLP文章/代码集锦)
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
carla 体验效果 及代码
CreateAMind
7+阅读 · 2018年2月3日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
10+阅读 · 2015年7月1日
Arxiv
0+阅读 · 2021年6月10日
Arxiv
0+阅读 · 2021年6月9日
Arxiv
11+阅读 · 2019年6月19日
Arxiv
7+阅读 · 2018年1月30日
VIP会员
Top
微信扫码咨询专知VIP会员