Embedding acoustic information into fixed length representations is of interest for a whole range of applications in speech and audio technology. Two novel unsupervised approaches to generate acoustic embeddings by modelling of acoustic context are proposed. The first approach is a contextual joint factor synthesis encoder, where the encoder in an encoder/decoder framework is trained to extract joint factors from surrounding audio frames to best generate the target output. The second approach is a contextual joint factor analysis encoder, where the encoder is trained to analyse joint factors from the source signal that correlates best with the neighbouring audio. To evaluate the effectiveness of our approaches compared to prior work, two tasks are conducted -- phone classification and speaker recognition -- and test on different TIMIT data sets. Experimental results show that one of the proposed approaches outperforms phone classification baselines, yielding a classification accuracy of 74.1%. When using additional out-of-domain data for training, an additional 3% improvements can be obtained, for both for phone classification and speaker recognition tasks.


翻译:将声学信息嵌入固定长度表示法对于语音和音频技术的一系列应用都有意义。 提出了两种通过模拟声学背景生成声学嵌入器的新颖、 不受监督的方法。 第一种方法是背景因素合成编码器, 使编码器/解码器框架中的编码器经过培训, 从周围音频框中提取联合要素, 以最佳生成目标输出。 第二种方法是背景因素联合要素分析编码器, 对编码器进行培训, 以分析来源信号中与邻近音频最相关的联合要素。 为了评估我们方法与先前工作相比的有效性, 开展了两项任务 -- -- 电话分类和语音识别 -- 并测试了不同的TIMEX数据集。 实验结果显示, 一项拟议方法超越了电话分类基线, 得出了74.1%的分类准确度。 在使用额外外部数据进行培训时, 可以在电话分类和语音识别任务方面另外获得3%的改进。

0
下载
关闭预览

相关内容

【Google-CMU】元伪标签的元学习,Meta Pseudo Labels
专知会员服务
31+阅读 · 2020年3月30日
临床自然语言处理中的嵌入综述,SECNLP: A survey of embeddings
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
基于Lattice LSTM的命名实体识别
微信AI
47+阅读 · 2018年10月19日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
已删除
将门创投
4+阅读 · 2017年12月12日
Arxiv
0+阅读 · 2021年3月31日
Arxiv
0+阅读 · 2021年3月29日
Arxiv
29+阅读 · 2020年3月16日
Meta-Learning with Latent Embedding Optimization
Arxiv
6+阅读 · 2018年7月16日
VIP会员
相关VIP内容
【Google-CMU】元伪标签的元学习,Meta Pseudo Labels
专知会员服务
31+阅读 · 2020年3月30日
临床自然语言处理中的嵌入综述,SECNLP: A survey of embeddings
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
基于Lattice LSTM的命名实体识别
微信AI
47+阅读 · 2018年10月19日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
已删除
将门创投
4+阅读 · 2017年12月12日
Top
微信扫码咨询专知VIP会员