文本图像具有独特的双重属性,同时包含视觉与语言信息。视觉成分涵盖结构和外观特征,而语言维度则包含上下文与语义要素。在视觉质量退化的场景中,语言模式成为理解的关键补充,这凸显了融合双重特征对于鲁棒场景文本识别(STR)的必要性。当前STR方法通常依赖语言模型或语义推理模块来捕捉语言特征,往往需要大规模标注数据集。缺乏标注的自监督学习在解耦全局上下文相关的语言特征方面面临挑战:序列对比学习通常强调局部特征对齐,而掩码图像建模(MIM)倾向于利用局部结构重建视觉模式,导致语言知识获取有限。本文提出**语言学感知掩码图像建模(LMIM)**方法,通过独立分支将语言信息注入MIM解码过程。具体而言,我们设计:语言对齐模块:利用不同视觉表现的输入,提取与视觉无关的特征作为语言引导全局上下文整合机制:迫使模型超越局部视觉结构,基于全局语境完成重建实验表明,LMIM在多个基准测试中达到SOTA性能(如ICDAR2015准确率提升3.2%),注意力可视化定性地展示了其对视觉与语言信息的同步捕获。代码已开源:https://github.com/zhangyifei01/LMIM

成为VIP会员查看完整内容
9

相关内容

【KDD2024】面向鲁棒推荐的决策边界感知图对比学习
专知会员服务
21+阅读 · 2024年8月8日
【CVPR2024】掩码自解码器是有效的多任务视觉通用模型
专知会员服务
20+阅读 · 2024年3月16日
【KDD2023】协同过滤的高效联合超参数和架构搜索
专知会员服务
23+阅读 · 2023年7月23日
专知会员服务
38+阅读 · 2021年5月28日
【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
38+阅读 · 2021年4月9日
【ACM MM2020】跨模态分布匹配的半监督多模态情感识别
专知会员服务
43+阅读 · 2020年9月8日
专知会员服务
42+阅读 · 2020年2月20日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
如何使用自然语言工具包(NLTK)在Python3中执行情感分析
Python程序员
21+阅读 · 2019年10月28日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
166+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
452+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2022年9月7日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
VIP会员
相关VIP内容
【KDD2024】面向鲁棒推荐的决策边界感知图对比学习
专知会员服务
21+阅读 · 2024年8月8日
【CVPR2024】掩码自解码器是有效的多任务视觉通用模型
专知会员服务
20+阅读 · 2024年3月16日
【KDD2023】协同过滤的高效联合超参数和架构搜索
专知会员服务
23+阅读 · 2023年7月23日
专知会员服务
38+阅读 · 2021年5月28日
【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
38+阅读 · 2021年4月9日
【ACM MM2020】跨模态分布匹配的半监督多模态情感识别
专知会员服务
43+阅读 · 2020年9月8日
专知会员服务
42+阅读 · 2020年2月20日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员