[ICCV 2021] 从二到一：一种带有视觉语言建模网络的新场景文本识别器 - 专知VIP

会员服务 ·

0

ICCV 2021 · 文本识别器 ·

2021 年 10 月 17 日

[ICCV 2021] 从二到一：一种带有视觉语言建模网络的新场景文本识别器

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

本文简要介绍ICCV2021 录用论文 From Two to One: A New Scene Text Recognizer with Visual Language Modeling Network。有别于以往的分步两阶段工作需要先进行视觉预测再利用语言模型纠正的策略，该工作提出了视觉语言网络 Vision-LAN，直接赋予视觉模型语言能力，将视觉和语言模型当作一个整体。由于语言信息是和视觉特征一同获取的，不需要额外的语言模型，Vision-LAN显著提高39%的前向速度，并且能够自适应考虑语言信息来增强视觉特征，进而达到更高的识别准确率。

成为VIP会员查看完整内容

17

相关内容

ICCV 2021

[ICCV 2021] 联合视觉语义推理：文本识别的多级解码器

[ICCV 2021] 联合视觉语义推理：文本识别的多级解码器

专知会员服务

19+阅读 · 2021年11月28日

[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答

[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答

专知会员服务

16+阅读 · 2021年11月14日

[CVPR 2021] 序列到序列对比学习的文本识别

[CVPR 2021] 序列到序列对比学习的文本识别

专知会员服务

29+阅读 · 2021年4月14日

【WSDM2021】双向图卷积：一种新的图卷积框架用于富文本网络

【WSDM2021】双向图卷积：一种新的图卷积框架用于富文本网络

专知会员服务

18+阅读 · 2021年1月29日

【NeurIPS 2020】一种端到端全自由度抓取姿态估计网络简介

【NeurIPS 2020】一种端到端全自由度抓取姿态估计网络简介

专知会员服务

20+阅读 · 2020年10月18日

【ACM Multimedia 2020】双时间存储网络有效的视频对象分割

【ACM Multimedia 2020】双时间存储网络有效的视频对象分割

专知会员服务

10+阅读 · 2020年8月13日

[ICML-Google]先宽后窄:对深度薄网络的有效训练

[ICML-Google]先宽后窄:对深度薄网络的有效训练

专知会员服务

36+阅读 · 2020年7月5日

【CVPR2020】语义增强的场景文本识别的编码-解码器框架，SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

【CVPR2020】语义增强的场景文本识别的编码-解码器框架，SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

专知会员服务

25+阅读 · 2020年5月22日

【CVPR2020 旷视研究院】探索类别正则化的领域自适应对象检测

【CVPR2020 旷视研究院】探索类别正则化的领域自适应对象检测

专知会员服务

24+阅读 · 2020年4月22日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

[CVPR 2021] 序列到序列对比学习的文本识别

[CVPR 2021] 序列到序列对比学习的文本识别

专知

10+阅读 · 2021年4月14日

|[IEEE TIP 2020]EraseNet：端到端的真实场景文本擦除方法

|[IEEE TIP 2020]EraseNet：端到端的真实场景文本擦除方法

专知

18+阅读 · 2020年10月22日

ICCV 2019 | 精确的端到端的弱监督目标检测网络

ICCV 2019 | 精确的端到端的弱监督目标检测网络

AI科技评论

11+阅读 · 2019年12月9日

ICCV 2019 | 可选择性与不变性：关注边界的显著性目标检测

ICCV 2019 | 可选择性与不变性：关注边界的显著性目标检测

PaperWeekly

9+阅读 · 2019年8月16日

CVPR 2019 | 微软亚研院提出用于语义分割的结构化知识蒸馏

CVPR 2019 | 微软亚研院提出用于语义分割的结构化知识蒸馏

计算机视觉life

6+阅读 · 2019年4月2日

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

泡泡机器人SLAM

20+阅读 · 2018年12月27日

【泡泡一分钟】基于级联特征网络的RBG-D图像语义分割（ICCV-2017）

【泡泡一分钟】基于级联特征网络的RBG-D图像语义分割（ICCV-2017）

泡泡机器人SLAM

3+阅读 · 2018年10月11日

CVPR 2018 | 无监督语义分割之全卷积域适应网络

CVPR 2018 | 无监督语义分割之全卷积域适应网络

极市平台

8+阅读 · 2018年6月28日

【泡泡一分钟】用于街景语义分割的全分辨率残差网络（CVPR-12）

【泡泡一分钟】用于街景语义分割的全分辨率残差网络（CVPR-12）

泡泡机器人SLAM

5+阅读 · 2017年11月2日

行人对齐+重识别网络（论文解读）

行人对齐+重识别网络（论文解读）

极市平台

7+阅读 · 2017年10月11日

Trimap-guided Feature Mining and Fusion Network for Natural Image Matting

Arxiv

0+阅读 · 2021年12月3日

Attention Bottlenecks for Multimodal Fusion

Arxiv

31+阅读 · 2021年6月30日

Look-into-Object: Self-supervised Structure Modeling for Object Recognition

Look-into-Object: Self-supervised Structure Modeling for Object Recognition

Arxiv

15+阅读 · 2020年3月31日

Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text

Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text

Arxiv

10+阅读 · 2020年3月31日

MetaFuse: A Pre-trained Fusion Model for Human Pose Estimation

MetaFuse: A Pre-trained Fusion Model for Human Pose Estimation

Arxiv

7+阅读 · 2020年3月30日

Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

Arxiv

7+阅读 · 2020年3月19日

Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction for Indoor Scenes from a Single Image

Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction for Indoor Scenes from a Single Image

Arxiv

12+阅读 · 2020年2月27日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

16+阅读 · 2019年5月24日

FSSD: Feature Fusion Single Shot Multibox Detector

Arxiv

8+阅读 · 2018年5月17日

Reconstruction Network for Video Captioning

Arxiv

5+阅读 · 2018年3月30日

VIP会员

相关主题

文本识别器

相关VIP内容

[ICCV 2021] 联合视觉语义推理：文本识别的多级解码器

[ICCV 2021] 联合视觉语义推理：文本识别的多级解码器

专知会员服务

19+阅读 · 2021年11月28日

[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答

[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答

专知会员服务

16+阅读 · 2021年11月14日

[CVPR 2021] 序列到序列对比学习的文本识别

[CVPR 2021] 序列到序列对比学习的文本识别

专知会员服务

29+阅读 · 2021年4月14日

【WSDM2021】双向图卷积：一种新的图卷积框架用于富文本网络

【WSDM2021】双向图卷积：一种新的图卷积框架用于富文本网络

专知会员服务

18+阅读 · 2021年1月29日

【NeurIPS 2020】一种端到端全自由度抓取姿态估计网络简介

【NeurIPS 2020】一种端到端全自由度抓取姿态估计网络简介

专知会员服务

20+阅读 · 2020年10月18日

【ACM Multimedia 2020】双时间存储网络有效的视频对象分割

【ACM Multimedia 2020】双时间存储网络有效的视频对象分割

专知会员服务

10+阅读 · 2020年8月13日

[ICML-Google]先宽后窄:对深度薄网络的有效训练

[ICML-Google]先宽后窄:对深度薄网络的有效训练

专知会员服务

36+阅读 · 2020年7月5日

【CVPR2020】语义增强的场景文本识别的编码-解码器框架，SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

【CVPR2020】语义增强的场景文本识别的编码-解码器框架，SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

专知会员服务

25+阅读 · 2020年5月22日

【CVPR2020 旷视研究院】探索类别正则化的领域自适应对象检测

【CVPR2020 旷视研究院】探索类别正则化的领域自适应对象检测

专知会员服务

24+阅读 · 2020年4月22日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

热门VIP内容

开通专知VIP会员享更多权益服务

《代码、指挥与冲突：描绘军事人工智能的未来》报告

【斯坦福博士论文】面向地理空间数据的多模态与多尺度建模：时空生成式人工智能

美国启动“自有军事人工智能计划”：采用谷歌Gemini以推动全军人工智能应用

《创新与适应性作为军事成功的关键因素：来自俄乌战争的战略洞见》报告

相关资讯

[CVPR 2021] 序列到序列对比学习的文本识别

[CVPR 2021] 序列到序列对比学习的文本识别

专知

10+阅读 · 2021年4月14日

|[IEEE TIP 2020]EraseNet：端到端的真实场景文本擦除方法

|[IEEE TIP 2020]EraseNet：端到端的真实场景文本擦除方法

专知

18+阅读 · 2020年10月22日

ICCV 2019 | 精确的端到端的弱监督目标检测网络

ICCV 2019 | 精确的端到端的弱监督目标检测网络

AI科技评论

11+阅读 · 2019年12月9日

ICCV 2019 | 可选择性与不变性：关注边界的显著性目标检测

ICCV 2019 | 可选择性与不变性：关注边界的显著性目标检测

PaperWeekly

9+阅读 · 2019年8月16日

CVPR 2019 | 微软亚研院提出用于语义分割的结构化知识蒸馏

CVPR 2019 | 微软亚研院提出用于语义分割的结构化知识蒸馏

计算机视觉life

6+阅读 · 2019年4月2日

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

泡泡机器人SLAM

20+阅读 · 2018年12月27日

【泡泡一分钟】基于级联特征网络的RBG-D图像语义分割（ICCV-2017）

【泡泡一分钟】基于级联特征网络的RBG-D图像语义分割（ICCV-2017）

泡泡机器人SLAM

3+阅读 · 2018年10月11日

CVPR 2018 | 无监督语义分割之全卷积域适应网络

CVPR 2018 | 无监督语义分割之全卷积域适应网络

极市平台

8+阅读 · 2018年6月28日

【泡泡一分钟】用于街景语义分割的全分辨率残差网络（CVPR-12）

【泡泡一分钟】用于街景语义分割的全分辨率残差网络（CVPR-12）

泡泡机器人SLAM

5+阅读 · 2017年11月2日

行人对齐+重识别网络（论文解读）

行人对齐+重识别网络（论文解读）

极市平台

7+阅读 · 2017年10月11日

相关论文

Trimap-guided Feature Mining and Fusion Network for Natural Image Matting

Arxiv

0+阅读 · 2021年12月3日

Attention Bottlenecks for Multimodal Fusion

Arxiv

31+阅读 · 2021年6月30日

Look-into-Object: Self-supervised Structure Modeling for Object Recognition

Look-into-Object: Self-supervised Structure Modeling for Object Recognition

Arxiv

15+阅读 · 2020年3月31日

Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text

Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text

Arxiv

10+阅读 · 2020年3月31日

MetaFuse: A Pre-trained Fusion Model for Human Pose Estimation

MetaFuse: A Pre-trained Fusion Model for Human Pose Estimation

Arxiv

7+阅读 · 2020年3月30日

Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

Arxiv

7+阅读 · 2020年3月19日

Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction for Indoor Scenes from a Single Image

Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction for Indoor Scenes from a Single Image

Arxiv

12+阅读 · 2020年2月27日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

16+阅读 · 2019年5月24日

FSSD: Feature Fusion Single Shot Multibox Detector

Arxiv

8+阅读 · 2018年5月17日

Reconstruction Network for Video Captioning

Arxiv

5+阅读 · 2018年3月30日

微信扫码咨询专知VIP会员