Pronunciation modeling is a key task for building speech technology in new languages, and while solid grapheme-to-phoneme (G2P) mapping systems exist, language coverage can stand to be improved. The information needed to build G2P models for many more languages can easily be found on Wikipedia, but unfortunately, it is stored in disparate formats. We report on a system we built to mine a pronunciation data set in 819 languages from loosely structured tables within Wikipedia. The data includes phoneme inventories, and for 63 low-resource languages, also includes the grapheme-to-phoneme (G2P) mapping. 54 of these languages do not have easily findable G2P mappings online otherwise. We turned the information from Wikipedia into a structured, machine-readable TSV format, and make the resulting data set publicly available so it can be improved further and used in a variety of applications involving low-resource languages.


翻译:发音模型是用新语言建立语音技术的一项关键任务,虽然有固态的图形化到手机(G2P)绘图系统,但语言覆盖面仍然有待改进。在维基百科上很容易找到为更多语言建立G2P模型所需的信息,但不幸的是,它以不同格式存储。我们报告了我们从维基百科内结构松散的表格中以819种语言建立的读音数据集储存的系统。这些数据包括电话清单和63种低资源语言的数据,还包括图形化到手机(G2P)的绘图。这些语言中,54种语言在网上不容易找到G2P绘图。我们把维基百科的信息转换成结构化的机器可读TSV格式,并向公众提供由此产生的数据集,以便进一步加以改进,用于涉及低资源语言的各种应用中。

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
305+阅读 · 2020年11月26日
【大规模数据系统,552页ppt】Large-scale Data Systems
专知会员服务
60+阅读 · 2019年12月21日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
机器学习相关资源(框架、库、软件)大列表
专知会员服务
39+阅读 · 2019年10月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
时序数据异常检测工具/数据集大列表
极市平台
65+阅读 · 2019年2月23日
【TED】生命中的每一年的智慧
英语演讲视频每日一推
9+阅读 · 2019年1月29日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
已删除
AI科技评论
4+阅读 · 2018年8月12日
【推荐】深度学习思维导图
机器学习研究会
15+阅读 · 2017年8月20日
Arxiv
4+阅读 · 2020年5月25日
3D Face Modeling from Diverse Raw Scan Data
Arxiv
5+阅读 · 2019年2月13日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
时序数据异常检测工具/数据集大列表
极市平台
65+阅读 · 2019年2月23日
【TED】生命中的每一年的智慧
英语演讲视频每日一推
9+阅读 · 2019年1月29日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
已删除
AI科技评论
4+阅读 · 2018年8月12日
【推荐】深度学习思维导图
机器学习研究会
15+阅读 · 2017年8月20日
Top
微信扫码咨询专知VIP会员