A major focus of recent research in spoken language understanding (SLU) has been on the end-to-end approach where a single model can predict intents directly from speech inputs without intermediate transcripts. However, this approach presents some challenges. First, since speech can be considered as personally identifiable information, in some cases only automatic speech recognition (ASR) transcripts are accessible. Second, intent-labeled speech data is scarce. To address the first challenge, we propose a novel system that can predict intents from flexible types of inputs: speech, ASR transcripts, or both. We demonstrate strong performance for either modality separately, and when both speech and ASR transcripts are available, through system combination, we achieve better results than using a single input modality. To address the second challenge, we leverage a semantically robust pre-trained BERT model and adopt a cross-modal system that co-trains text embeddings and acoustic embeddings in a shared latent space. We further enhance this system by utilizing an acoustic module pre-trained on LibriSpeech and domain-adapting the text module on our target datasets. Our experiments show significant advantages for these pre-training and fine-tuning strategies, resulting in a system that achieves competitive intent-classification performance on Snips SLU and Fluent Speech Commands datasets.


翻译:最近对口语理解(SLU)研究的一个主要重点是端对端方法,即单一模型可以直接预测来自语言投入的意向,而没有中间记录誊本,但这一方法提出了一些挑战。首先,由于言论可以被视为个人可识别的信息,在某些情况下只能获得自动语音识别(ASR)记录誊本。第二,用意标标的语音数据很少。为了应对第一个挑战,我们提议了一个新系统,可以预测来自灵活投入类型的意向:演讲、ASR笔录或两者兼而有之。我们通过系统组合,在两种模式中都可直接预测语言投入的意图时,显示我们取得优于单一输入模式的成绩。为了应对第二个挑战,我们利用经过预先培训的BERT模型,并采用一个双调系统,在共同的潜伏空间中共同进行文字嵌入和声源嵌入。我们通过在LibriSpeech和域调整我们目标数据集的文本模块上,我们展示了很强的功能,我们实验展示了这些前期测试和后级指令战略的优势。

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
320+阅读 · 2020年11月26日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
80+阅读 · 2020年7月26日
商业数据分析,39页ppt
专知会员服务
165+阅读 · 2020年6月2日
基于BERT的ASR纠错
深度学习自然语言处理
8+阅读 · 2020年7月16日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
神器Cobalt Strike3.13破解版
黑白之道
12+阅读 · 2019年3月1日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
VIP会员
相关VIP内容
最新《Transformers模型》教程,64页ppt
专知会员服务
320+阅读 · 2020年11月26日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
80+阅读 · 2020年7月26日
商业数据分析,39页ppt
专知会员服务
165+阅读 · 2020年6月2日
相关资讯
基于BERT的ASR纠错
深度学习自然语言处理
8+阅读 · 2020年7月16日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
神器Cobalt Strike3.13破解版
黑白之道
12+阅读 · 2019年3月1日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
Top
微信扫码咨询专知VIP会员