[ICCV 2021] 联合视觉语义推理：文本识别的多级解码器 - 专知VIP

会员服务 ·

1

ICCV 2021 · 文本识别 · 联合视觉语义推理 · 论文 ·

2021 年 11 月 28 日

[ICCV 2021] 联合视觉语义推理：文本识别的多级解码器

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

本文简要介绍ICCV2021录用论文“Joint Visual Semantic Reasoning: Multi-Stage Decoder for Text Recognition”的主要工作。作者提出了一种多阶段多尺度注意力解码器，用于执行联合视觉语义推理，从而进一步利用语义信息。第一阶段使用视觉特征进行预测，随后的阶段使用联合视觉语义信息进行优化。

由于复杂的背景、不同的字体、不受控制的照明、扭曲和其他人为因素，最先进的文本识别框架仍然难以适应各种场景[1]。当人类面对这些挑战时，我们可以通过联合视觉语义推理来很容易地识别它们。因此，“如何开发文本识别的视觉语义推理技能”是一个重点问题。

在野外场景中，文字图像可能会模糊、扭曲或部分失真，噪声或有伪影，这使得仅使用视觉特征识别非常困难。在这种情况下，我们人类会首先尝试仅使用视觉线索来解释易于识别的字符。然后，联合处理先前已经识别的字符序列的视觉和语义信息，应用语义推理技巧对最终的文本进行解码。

成为VIP会员查看完整内容

19

相关内容

ICCV 2021

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答

[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答

专知会员服务

16+阅读 · 2021年11月14日

[ICCV 2021] 从二到一：一种带有视觉语言建模网络的新场景文本识别器

专知会员服务

17+阅读 · 2021年10月17日

【ICCV 2021】OadTR框架：基于Transformers的在线行为检测任务

专知会员服务

10+阅读 · 2021年9月11日

[CVPR 2021] 序列到序列对比学习的文本识别

[CVPR 2021] 序列到序列对比学习的文本识别

专知会员服务

29+阅读 · 2021年4月14日

[CVPR 2021] 序列到序列对比学习的文本识别

[CVPR 2021] 序列到序列对比学习的文本识别

专知

10+阅读 · 2021年4月14日

论文推荐| [CVPR 2020 Oral] ABCNet:基于自适应贝塞尔曲线的实时端到端自然场景文字检测及识别网络（附代码）

论文推荐| [CVPR 2020 Oral] ABCNet:基于自适应贝塞尔曲线的实时端到端自然场景文字检测及识别网络（附代码）

专知

19+阅读 · 2020年5月24日

ICCV 2019 | CSVT: 中文场景文本数据集及一种文本识别新方法

ICCV 2019 | CSVT: 中文场景文本数据集及一种文本识别新方法

极市平台

24+阅读 · 2019年11月20日

ICCV 2019 | 用于提高车牌识别的单幅噪声图像去噪和校正

ICCV 2019 | 用于提高车牌识别的单幅噪声图像去噪和校正

AI科技评论

9+阅读 · 2019年10月22日

【学界】CVPR 2019 | 基于级联语义引导下的多通道注意力选择图像翻译

【学界】CVPR 2019 | 基于级联语义引导下的多通道注意力选择图像翻译

GAN生成式对抗网络

10+阅读 · 2019年8月17日

Improving Emotional Speech Synthesis by Using SUS-Constrained VAE and Text Encoder Aggregation

Arxiv

0+阅读 · 2022年1月28日

Multi-View Self-Attention Based Transformer for Speaker Recognition

Arxiv

0+阅读 · 2022年1月27日

Human Pose Regression with Residual Log-likelihood Estimation

Arxiv

4+阅读 · 2021年7月26日

SlowFast Networks for Video Recognition

SlowFast Networks for Video Recognition

Arxiv

19+阅读 · 2018年12月10日

Detecting and counting tiny faces

Arxiv

4+阅读 · 2018年1月19日

VIP会员

相关主题

联合视觉语义推理

相关VIP内容

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答

[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答

专知会员服务

16+阅读 · 2021年11月14日

[ICCV 2021] 从二到一：一种带有视觉语言建模网络的新场景文本识别器

专知会员服务

17+阅读 · 2021年10月17日

【ICCV 2021】OadTR框架：基于Transformers的在线行为检测任务

专知会员服务

10+阅读 · 2021年9月11日

[CVPR 2021] 序列到序列对比学习的文本识别

[CVPR 2021] 序列到序列对比学习的文本识别

专知会员服务

29+阅读 · 2021年4月14日

热门VIP内容

开通专知VIP会员享更多权益服务

《将空中力量带向海洋：美国海军航空发展的四条竞争路径及其教训》报告

【MIT博士论文】以语言为中心的医学影像理解

《无人机系统 - 反无人机系统：测试方法》364页

《无人机蜂群攻击防御的预测建模：面向美军战备的人工智能轨迹预测与最优拦截策略设计》最新报告

相关资讯

[CVPR 2021] 序列到序列对比学习的文本识别

[CVPR 2021] 序列到序列对比学习的文本识别

专知

10+阅读 · 2021年4月14日

论文推荐| [CVPR 2020 Oral] ABCNet:基于自适应贝塞尔曲线的实时端到端自然场景文字检测及识别网络（附代码）

论文推荐| [CVPR 2020 Oral] ABCNet:基于自适应贝塞尔曲线的实时端到端自然场景文字检测及识别网络（附代码）

专知

19+阅读 · 2020年5月24日

ICCV 2019 | CSVT: 中文场景文本数据集及一种文本识别新方法

ICCV 2019 | CSVT: 中文场景文本数据集及一种文本识别新方法

极市平台

24+阅读 · 2019年11月20日

ICCV 2019 | 用于提高车牌识别的单幅噪声图像去噪和校正

ICCV 2019 | 用于提高车牌识别的单幅噪声图像去噪和校正

AI科技评论

9+阅读 · 2019年10月22日

【学界】CVPR 2019 | 基于级联语义引导下的多通道注意力选择图像翻译

【学界】CVPR 2019 | 基于级联语义引导下的多通道注意力选择图像翻译

GAN生成式对抗网络

10+阅读 · 2019年8月17日

相关论文

Improving Emotional Speech Synthesis by Using SUS-Constrained VAE and Text Encoder Aggregation

Arxiv

0+阅读 · 2022年1月28日

Multi-View Self-Attention Based Transformer for Speaker Recognition

Arxiv

0+阅读 · 2022年1月27日

Human Pose Regression with Residual Log-likelihood Estimation

Arxiv

4+阅读 · 2021年7月26日

SlowFast Networks for Video Recognition

SlowFast Networks for Video Recognition

Arxiv

19+阅读 · 2018年12月10日

Detecting and counting tiny faces

Arxiv

4+阅读 · 2018年1月19日

微信扫码咨询专知VIP会员