End-to-end approaches open a new way for more accurate and efficient spoken language understanding (SLU) systems by alleviating the drawbacks of traditional pipeline systems. Previous works exploit textual information for an SLU model via pre-training with automatic speech recognition or fine-tuning with knowledge distillation. To utilize textual information more effectively, this work proposes a two-stage textual knowledge distillation method that matches utterance-level representations and predicted logits of two modalities during pre-training and fine-tuning, sequentially. We use vq-wav2vec BERT as a speech encoder because it captures general and rich features. Furthermore, we improve the performance, especially in a low-resource scenario, with data augmentation methods by randomly masking spans of discrete audio tokens and contextualized hidden representations. Consequently, we push the state-of-the-art on the Fluent Speech Commands, achieving 99.7% test accuracy in the full dataset setting and 99.5% in the 10% subset setting. Throughout the ablation studies, we empirically verify that all used methods are crucial to the final performance, providing the best practice for spoken language understanding. Code is available at https://github.com/clovaai/textual-kd-slu.


翻译:端到端方法通过减轻传统管道系统的缺陷,为更准确、更高效的口语理解系统开辟了新的途径。 以前的作品通过通过通过自动语音识别或微调知识蒸馏的预培训,为SLU模型开发文本信息。 为了更有效地利用文本信息, 这项工作提议了一种两阶段文本知识蒸馏方法, 与预培训和微调期间的发声级别表达和两种模式预测记录相匹配, 顺序顺序。 我们使用 vq-wav2vec BERT作为语音编码器, 因为它能捕捉一般和丰富的特性。 此外, 我们通过随机遮盖离散音符和背景化隐含演示的数据增强方法, 来改进SLUU模型的文本信息。 因此, 我们在流言指令指令上推推进状态, 达到99.7%的全数据集设置测试准确度, 10%的子集设置为99.5% 。 在整个分析研究过程中, 我们通过实验性核查所有使用的方法对于最后的性能至关重要, 特别是低资源情景, 数据增强方法, 提供最佳的语音码/ 。

0
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2020年11月20日
【知识图谱@ACL2020】Knowledge Graphs in Natural Language Processing
专知会员服务
65+阅读 · 2020年7月12日
【AAAI2020知识图谱论文概述】Knowledge Graphs @ AAAI 2020
专知会员服务
133+阅读 · 2020年2月13日
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
29+阅读 · 2019年10月18日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
BERT 瘦身之路:Distillation,Quantization,Pruning
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Knowledge Distillation from Internal Representations
Arxiv
4+阅读 · 2019年10月8日
Arxiv
4+阅读 · 2019年9月5日
Arxiv
5+阅读 · 2018年1月18日
VIP会员
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
BERT 瘦身之路:Distillation,Quantization,Pruning
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员