This paper introduces the system submitted by dun_oscar team for the ICPR MSR Challenge. Three subsystems for task1-task3 are descripted respectively. In task1, we develop a visual system which includes a OCR model, a text tracker, and a NLP classifier for distinguishing subtitles and non-subtitles. In task2, we employ an ASR system which includes an AM with 18 layers and a 4-gram LM. Semi-supervised learning on unlabeled data is also vital. In task3, we employ the ASR system to improve the visual system, some false subtitles can be corrected by a fusion module.
翻译:本文介绍dun_oscar团队为ICR MSR挑战提交的系统。 任务1- task3的三个子系统分别被描述。 在任务1中, 我们开发了一个视觉系统, 包括 OCR 模型、 文本跟踪器, 以及用于区分字幕和非字幕的 NLP 分类器。 在任务2中, 我们使用一个 ASR 系统, 包括一个有18 层的AM 和 4 克LM 。 在任务3中, 我们使用 ASR 系统来改进视觉系统, 一些假字幕可以通过聚合模块校正 。</s>