Jejueo was classified as critically endangered by UNESCO in 2010. Although diverse efforts to revitalize it have been made, there have been few computational approaches. Motivated by this, we construct two new Jejueo datasets: Jejueo Interview Transcripts (JIT) and Jejueo Single Speaker Speech (JSS). The JIT dataset is a parallel corpus containing 170k+ Jejueo-Korean sentences, and the JSS dataset consists of 10k high-quality audio files recorded by a native Jejueo speaker and a transcript file. Subsequently, we build neural systems of machine translation and speech synthesis using them. All resources are publicly available via our GitHub repository. We hope that these datasets will attract interest of both language and machine learning communities.


翻译:2010年,教科文组织将Jejueo列为严重危害,2010年,教科文组织将Jejueo列为严重危害,尽管为振兴Jejueo做出了多种努力,但很少采用计算方法,为此,我们兴建了两个新的Jejueo数据集:Jejueo采访记录(JIT)和Jejueo单一发言人演讲(JSS),JIT数据集是一个平行的数据集,包含170k+ Jejueo-朝韩判决,JS数据集由10k个高质量的音频文件组成,由一位当地Jejueo语发言者录制,还有一个抄录文件。随后,我们建立了机器翻译和语音合成神经系统。所有资源都可以通过我们的GitHub存储库公开获取。我们希望这些数据集将吸引语言和机器学习界的兴趣。

1
下载
关闭预览

相关内容

《系统与软件》杂志发表了涵盖软件工程各个方面的论文。所有文章都应提供支持其主张的证据,例如通过实证研究、模拟、形式证明或其他类型的验证。管网地址:http://dblp.uni-trier.de/db/journals/jss/
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
6+阅读 · 2018年2月28日
Arxiv
6+阅读 · 2018年2月26日
VIP会员
相关VIP内容
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
Top
微信扫码咨询专知VIP会员