场景文字识别的蒙面视觉语言变形器 (Masked Vision-Language Transformers for Scene Text Recognition) - 专知论文

会员服务 ·

0

掩码 · MoDELS · 变换 · state-of-the-art · INFORMS ·

2022 年 11 月 9 日

Masked Vision-Language Transformers for Scene Text Recognition

翻译：场景文字识别的蒙面视觉语言变形器

Jie Wu,Ying Peng,Shengming Zhang,Weigang Qi,Jian Zhang

from arxiv, The paper is accepted by the 33rd British Machine Vision Conference (BMVC 2022)

Scene text recognition (STR) enables computers to recognize and read the text in various real-world scenes. Recent STR models benefit from taking linguistic information in addition to visual cues into consideration. We propose a novel Masked Vision-Language Transformers (MVLT) to capture both the explicit and the implicit linguistic information. Our encoder is a Vision Transformer, and our decoder is a multi-modal Transformer. MVLT is trained in two stages: in the first stage, we design a STR-tailored pretraining method based on a masking strategy; in the second stage, we fine-tune our model and adopt an iterative correction method to improve the performance. MVLT attains superior results compared to state-of-the-art STR models on several benchmarks. Our code and model are available at https://github.com/onealwj/MVLT.

翻译：场景文字识别(STR)使计算机能够在各种现实世界的场景中识别和阅读文字。最近的STR模型在考虑视觉提示之外,还从语言信息中受益。我们提议了一部新颖的蒙面视觉语言变异器(MVLT),以捕捉直隐语言信息。我们的编码器是一个视野变异器,我们的解码器是一个多式变异器。MVLT分两个阶段接受培训:第一阶段,我们设计一种基于遮罩战略的STR定制的训练前方法;第二阶段,我们调整我们的模型,并采用迭代校正方法来改进性能。MVLT取得了优于若干基准上最先进的TRT模型的结果。我们的代码和模型可在https://github.com/onealwj/MVLT查阅。

0

相关内容

NeurlPS 2022 | 自然语言处理相关论文分类整理

NeurlPS 2022 | 自然语言处理相关论文分类整理

专知会员服务

51+阅读 · 2022年10月2日

对比学习简述

专知会员服务

90+阅读 · 2021年6月29日

50+篇《神经架构搜索NAS》2020论文合集

专知会员服务

61+阅读 · 2020年3月19日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

166+阅读 · 2020年3月18日

CVPR 2020 论文开源项目合集

专知会员服务

110+阅读 · 2020年3月12日

【新书】数字图像(影像)处理手第二版，2176pdf，Mathematical Methods in Imaging

【新书】数字图像(影像)处理手第二版，2176pdf，Mathematical Methods in Imaging

专知会员服务

93+阅读 · 2020年2月12日

【跨语言BERT模型大集合】Transfer learning is increasingly going multilingual with language-specific BERT models

专知会员服务

54+阅读 · 2020年1月30日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知

133+阅读 · 2020年3月18日

ICCV 2019 行为识别/视频理解论文汇总

ICCV 2019 行为识别/视频理解论文汇总

极市平台

15+阅读 · 2019年9月26日

BERT/Transformer/迁移学习NLP资源大列表

BERT/Transformer/迁移学习NLP资源大列表

专知

19+阅读 · 2019年6月9日

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

AINLP

40+阅读 · 2019年6月9日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

谷歌发表的史上最强NLP模型BERT的官方代码和预训练模型可以下载了

谷歌发表的史上最强NLP模型BERT的官方代码和预训练模型可以下载了

AINLP

12+阅读 · 2018年11月1日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

MoCoGAN 分解运动和内容的视频生成

MoCoGAN 分解运动和内容的视频生成

CreateAMind

18+阅读 · 2017年10月21日

【推荐】图像分类必读开创性论文汇总

【推荐】图像分类必读开创性论文汇总

机器学习研究会

14+阅读 · 2017年8月15日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

图像分割中若干图论问题的研究

国家自然科学基金

0+阅读 · 2014年12月31日

旋转机械剩余寿命预测若干关键问题研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于多信息融合的自然场景图像中的文本检测和识别方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

人脸图像的身份和表情同步识别方法研究

国家自然科学基金

2+阅读 · 2012年12月31日

在役桥梁结构系统非线性动力参数识别及安全性评估研究

国家自然科学基金

0+阅读 · 2012年12月31日

Zakharov型方程的若干问题研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于灰建模的同步EEG-fMRI脑功能动态建模与识别

国家自然科学基金

0+阅读 · 2012年12月31日

面向任务约束启发的可重构机械臂模块化协同控制方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

图像局部纹理的稳定场模型及算法研究

国家自然科学基金

0+阅读 · 2008年12月31日

Muse: Text-To-Image Generation via Masked Generative Transformers

Arxiv

0+阅读 · 2023年1月2日

CLIP-ReID: Exploiting Vision-Language Model for Image Re-Identification without Concrete Text Labels

Arxiv

0+阅读 · 2023年1月1日

Bidirectional Cross-Modal Knowledge Exploration for Video Recognition with Pre-trained Vision-Language Models

Arxiv

0+阅读 · 2022年12月31日

Alignment-guided Temporal Attention for Video Action Recognition

Arxiv

0+阅读 · 2022年12月30日

Local Learning on Transformers via Feature Reconstruction

Arxiv

0+阅读 · 2022年12月29日

Learning Representations for Masked Facial Recovery

Arxiv

0+阅读 · 2022年12月28日

CLIP-TD: CLIP Targeted Distillation for Vision-Language Tasks

Arxiv

1+阅读 · 2022年12月28日

Unifying Vision-and-Language Tasks via Text Generation

Arxiv

10+阅读 · 2021年2月4日

Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text

Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text

Arxiv

10+阅读 · 2020年3月31日

UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training

Arxiv

15+阅读 · 2020年2月28日

VIP会员

文章信息

相关主题

state-of-the-art

相关VIP内容

NeurlPS 2022 | 自然语言处理相关论文分类整理

NeurlPS 2022 | 自然语言处理相关论文分类整理

专知会员服务

51+阅读 · 2022年10月2日

对比学习简述

专知会员服务

90+阅读 · 2021年6月29日

50+篇《神经架构搜索NAS》2020论文合集

专知会员服务

61+阅读 · 2020年3月19日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

166+阅读 · 2020年3月18日

CVPR 2020 论文开源项目合集

专知会员服务

110+阅读 · 2020年3月12日

【新书】数字图像(影像)处理手第二版，2176pdf，Mathematical Methods in Imaging

【新书】数字图像(影像)处理手第二版，2176pdf，Mathematical Methods in Imaging

专知会员服务

93+阅读 · 2020年2月12日

【跨语言BERT模型大集合】Transfer learning is increasingly going multilingual with language-specific BERT models

专知会员服务

54+阅读 · 2020年1月30日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

【牛津博士论文】零样本强化学习综述

《美军条令：陆军指挥官与规划人员地理空间指南》60页

战术边缘指挥控制：防务面临的核心挑战

迈向开放世界检测：综述

相关资讯

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知

133+阅读 · 2020年3月18日

ICCV 2019 行为识别/视频理解论文汇总

ICCV 2019 行为识别/视频理解论文汇总

极市平台

15+阅读 · 2019年9月26日

BERT/Transformer/迁移学习NLP资源大列表

BERT/Transformer/迁移学习NLP资源大列表

专知

19+阅读 · 2019年6月9日

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

AINLP

40+阅读 · 2019年6月9日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

谷歌发表的史上最强NLP模型BERT的官方代码和预训练模型可以下载了

谷歌发表的史上最强NLP模型BERT的官方代码和预训练模型可以下载了

AINLP

12+阅读 · 2018年11月1日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

MoCoGAN 分解运动和内容的视频生成

MoCoGAN 分解运动和内容的视频生成

CreateAMind

18+阅读 · 2017年10月21日

【推荐】图像分类必读开创性论文汇总

【推荐】图像分类必读开创性论文汇总

机器学习研究会

14+阅读 · 2017年8月15日

相关论文

Muse: Text-To-Image Generation via Masked Generative Transformers

Arxiv

0+阅读 · 2023年1月2日

CLIP-ReID: Exploiting Vision-Language Model for Image Re-Identification without Concrete Text Labels

Arxiv

0+阅读 · 2023年1月1日

Bidirectional Cross-Modal Knowledge Exploration for Video Recognition with Pre-trained Vision-Language Models

Arxiv

0+阅读 · 2022年12月31日

Alignment-guided Temporal Attention for Video Action Recognition

Arxiv

0+阅读 · 2022年12月30日

Local Learning on Transformers via Feature Reconstruction

Arxiv

0+阅读 · 2022年12月29日

Learning Representations for Masked Facial Recovery

Arxiv

0+阅读 · 2022年12月28日

CLIP-TD: CLIP Targeted Distillation for Vision-Language Tasks

Arxiv

1+阅读 · 2022年12月28日

Unifying Vision-and-Language Tasks via Text Generation

Arxiv

10+阅读 · 2021年2月4日

Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text

Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text

Arxiv

10+阅读 · 2020年3月31日

UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training

Arxiv

15+阅读 · 2020年2月28日

相关基金

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

图像分割中若干图论问题的研究

国家自然科学基金

0+阅读 · 2014年12月31日

旋转机械剩余寿命预测若干关键问题研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于多信息融合的自然场景图像中的文本检测和识别方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

人脸图像的身份和表情同步识别方法研究

国家自然科学基金

2+阅读 · 2012年12月31日

在役桥梁结构系统非线性动力参数识别及安全性评估研究

国家自然科学基金

0+阅读 · 2012年12月31日

Zakharov型方程的若干问题研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于灰建模的同步EEG-fMRI脑功能动态建模与识别

国家自然科学基金

0+阅读 · 2012年12月31日

面向任务约束启发的可重构机械臂模块化协同控制方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

图像局部纹理的稳定场模型及算法研究

国家自然科学基金

0+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员