The use of phonological features (PFs) potentially allows language-specific phones to remain linked in training, which is highly desirable for information sharing for multilingual and crosslingual speech recognition methods for low-resourced languages. A drawback suffered by previous methods in using phonological features is that the acoustic-to-PF extraction in a bottom-up way is itself difficult. In this paper, we propose to join phonology driven phone embedding (top-down) and deep neural network (DNN) based acoustic feature extraction (bottom-up) to calculate phone probabilities. The new method is called JoinAP (Joining of Acoustics and Phonology). Remarkably, no inversion from acoustics to phonological features is required for speech recognition. For each phone in the IPA (International Phonetic Alphabet) table, we encode its phonological features to a phonological-vector, and then apply linear or nonlinear transformation of the phonological-vector to obtain the phone embedding. A series of multilingual and crosslingual (both zero-shot and few-shot) speech recognition experiments are conducted on the CommonVoice dataset (German, French, Spanish and Italian) and the AISHLL-1 dataset (Mandarin), and demonstrate the superiority of JoinAP with nonlinear phone embeddings over both JoinAP with linear phone embeddings and the traditional method with flat phone embeddings.


翻译:使用声学特征(PFs)有可能使语言专用电话在培训中保持链接,这对于为低资源语言的多语种和跨语种语音识别方法进行信息共享非常可取。以前使用声学特征的方法所遭遇的一个缺点是,声学到PF的提取本身很困难。在本文中,我们提议加入声学驱动的电话嵌入(自上而下)和深神经网络(DNNN)声学特征提取(自下而上)来计算电话概率。新的方法称为JIPAP(参加声学和声学)的新方法。在语音识别方面不需要从声学到声学特征的转换。对于IPA(国际音调字母贝)表格中的每部电话,我们将其声学特征编码为声学摄录器,然后对声学-感官进行线性或非线性变换,以获得电话嵌入。一系列多语和跨语种语言(从零和几发声学)语音识别和声学方法明显地从声学到声学的声学特征转换。在通用的AVAL-PLSAL上,用通用数据、直行、SAL-PLSBRO、SDS、O、O、SD-RO-RO-PLSLS、O、SDISAL、O、O、MA-PLI、O、S、SLI、S、O、O、AD-SLU、OI、O、O、O、ADR、MA-SDLUDRI和SDL、SDLI、MA、MA、MA、SLUDLUDLUDLUD、MA、MA、MA、SD、S、MA、MA、MA、MA、MA、MA、S、PLUDR、MA、MA、MA、MA、MA、MA、MA、O、P、O、P、MA、MA、PLU、PL、MA、PLSDR、MA、MA、MA、MA、MA、MA、MA、MA、MA、MA、O、O、O、O、MA、O、P、P、O、O、O、P、P、O、O、MA、S、O、O、MA、MA、O、MA、O、

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Hierarchically Structured Meta-learning
CreateAMind
24+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
R文本分类之RTextTools
R语言中文社区
4+阅读 · 2018年1月17日
GitHub最著名的20个Python机器学习项目!
深度学习世界
9+阅读 · 2018年1月8日
GitHub最著名的20个Python机器学习项目
全球人工智能
9+阅读 · 2017年12月7日
Arxiv
5+阅读 · 2019年11月22日
Arxiv
8+阅读 · 2018年11月27日
Arxiv
6+阅读 · 2018年7月29日
VIP会员
相关VIP内容
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Top
微信扫码咨询专知VIP会员