Visual Speech Recognition aims to transcribe spoken words from silent lip-motion videos. This task is particularly challenging for Mandarin, as visemes are highly ambiguous and homophones are prevalent. We propose VALLR-Pin, a novel two-stage framework that extends the recent VALLR architecture from English to Mandarin. First, a shared video encoder feeds into dual decoders, which jointly predict both Chinese character sequences and their standard Pinyin romanization. The multi-task learning of character and phonetic outputs fosters robust visual-semantic representations. During inference, the text decoder generates multiple candidate transcripts. We construct a prompt by concatenating the Pinyin output with these candidate Chinese sequences and feed it to a large language model to resolve ambiguities and refine the transcription. This provides the LLM with explicit phonetic context to correct homophone-induced errors. Finally, we fine-tune the LLM on synthetic noisy examples: we generate imperfect Pinyin-text pairs from intermediate VALLR-Pin checkpoints using the training data, creating instruction-response pairs for error correction. This endows the LLM with awareness of our model's specific error patterns. In summary, VALLR-Pin synergizes visual features with phonetic and linguistic context to improve Mandarin lip-reading performance.


翻译:视觉语音识别旨在从无声的唇部运动视频中转录出所说的话语。对于汉语而言,该任务尤为困难,因为视位高度模糊且同音字现象普遍。我们提出了VALLR-Pin,一个新颖的两阶段框架,将近期提出的VALLR架构从英语扩展至汉语。首先,一个共享的视频编码器将特征馈入双解码器,该双解码器联合预测汉字序列及其对应的标准拼音罗马化。汉字与拼音输出的多任务学习促进了鲁棒的视觉-语义表征学习。在推理阶段,文本解码器生成多个候选转录文本。我们将拼音输出与这些候选汉字序列拼接以构建提示,并将其输入一个大语言模型,以消解歧义并精修转录结果。这为LLM提供了明确的语音上下文,以纠正由同音字引起的错误。最后,我们在合成的含噪示例上对大语言模型进行微调:利用训练数据,从VALLR-Pin的中间检查点生成不完美的拼音-文本对,从而构建用于纠错的指令-响应对。这使LLM能够感知我们模型特定的错误模式。总而言之,VALLR-Pin通过协同利用视觉特征、语音上下文及语言上下文,提升了汉语唇读的性能。

0
下载
关闭预览

相关内容

【CVPR2024】VidLA: 大规模视频-语言对齐
专知会员服务
20+阅读 · 2024年3月31日
【Tutorial】计算机视觉中的Transformer,98页ppt
专知
21+阅读 · 2021年10月25日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员