题目: Multiresolution and Multimodal Speech Recognition with Transformers

摘要:

本文提出了一种基于transformers的语音自动识别系统。我们特别关注场景上下文所提供的视觉信息,以集成ASR。我们在transformers的编码器层提取音频特征的表示,并使用一个额外的跨模态多头注意层融合视频特征。此外,我们为多分辨率ASR合并了一个多任务训练标准,在那里我们训练模型来生成字符和子单词级别的转录。

在How2数据集上的实验结果表明,与子单词预测模型相比,多分辨率训练可以加快约50%的收敛速度,并相对提高高达18%的单词错误率(WER)性能。此外,与纯音频模型相比,集成视觉信息可以提高性能,相对提高3.76%。其成果可与最先进的聆听、聆听和基于拼写的体系结构相媲美。

成为VIP会员查看完整内容
14

相关内容

【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性
专知会员服务
19+阅读 · 2020年4月14日
【Amazon】使用预先训练的Transformer模型进行数据增强
专知会员服务
56+阅读 · 2020年3月6日
Reformer:一个高效的 Transformer
TensorFlow
9+阅读 · 2020年2月13日
命名实体识别新SOTA:改进Transformer模型
AI科技评论
17+阅读 · 2019年11月26日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
Arxiv
6+阅读 · 2020年4月14日
Arxiv
6+阅读 · 2019年7月11日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
3+阅读 · 2018年6月19日
VIP会员
相关VIP内容
【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性
专知会员服务
19+阅读 · 2020年4月14日
【Amazon】使用预先训练的Transformer模型进行数据增强
专知会员服务
56+阅读 · 2020年3月6日
微信扫码咨询专知VIP会员