End-to-end acoustic speech recognition has quickly gained widespread popularity and shows promising results in many studies. Specifically the joint transformer/CTC model provides very good performance in many tasks. However, under noisy and distorted conditions, the performance still degrades notably. While audio-visual speech recognition can significantly improve the recognition rate of end-to-end models in such poor conditions, it is not obvious how to best utilize any available information on acoustic and visual signal quality and reliability in these models. We thus consider the question of how to optimally inform the transformer/CTC model of any time-variant reliability of the acoustic and visual information streams. We propose a new fusion strategy, incorporating reliability information in a decision fusion net that considers the temporal effects of the attention mechanism. This approach yields significant improvements compared to a state-of-the-art baseline model on the Lip Reading Sentences 2 and 3 (LRS2 and LRS3) corpus. On average, the new system achieves a relative word error rate reduction of 43% compared to the audio-only setup and 31% compared to the audiovisual end-to-end baseline.


翻译:终端到终端语音识别迅速获得广泛欢迎,并在许多研究中显示出可喜的成果。具体地说,联合变压器/CTC模型在许多任务中表现良好。然而,在吵闹和扭曲的条件下,性能仍然显著下降。视听语音识别可以显著提高在这种恶劣条件下终端到终端模式的识别率,但尚不清楚如何最好地利用这些模型中关于声学和视觉信号质量和可靠性的任何现有信息。我们因此审议了如何最佳地向变压器/CT模型通报音频和视觉信息流的任何时间变化可靠性的问题。我们提出了一项新的聚合战略,将可靠性信息纳入考虑注意机制时间影响的决定聚合网中。这种方法与LRS2和3(LRS3和LRS3)最新基线模型相比,取得了显著改进。平均而言,新系统的字差率比音频专用设置减少了43%,与视听终端到终端基线减少了31%。

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
深度卷积神经网络中的降采样
极市平台
12+阅读 · 2019年5月24日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
计算机 | ISMAR 2019等国际会议信息8条
Call4Papers
3+阅读 · 2019年3月5日
行为识别(action recognition)目前的难点在哪?
极市平台
36+阅读 · 2019年2月14日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
Arxiv
0+阅读 · 2021年6月9日
Arxiv
3+阅读 · 2018年6月19日
VIP会员
相关VIP内容
Top
微信扫码咨询专知VIP会员