【AAAI2022】在场景文本识别中，视觉语义学可以更好地进行文本推理 - 专知VIP

会员服务 ·

2

AAAI 2022 · 文本识别 · 文本推理 · 论文 ·

2022 年 2 月 7 日

【AAAI2022】在场景文本识别中，视觉语义学可以更好地进行文本推理

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

论文题目: Visual Semantics Allow for Textual Reasoning Better in Scene Text Recognition

作者: Yue He, Chen Chen, Jing Zhang, Juhua Liu, Fengxiang He, Chaoyue Wang, Bo Du

指导教师：杜博教授

论文概述: 现有的场景文本识别（STR）方法通常使用语言模型来优化视觉识别（VR）模型预测的一维字符序列的联合概率, 然而忽略了字符实例内部和字符实例之间的二维空间视觉语义，使得这些方法不能很好地应用泛化到任意形状的场景文本。为了解决这个问题，本文中首次尝试利用视觉语义进行文本推理。具体而言，在给定 VR 模型预测的字符分割图，首先为每个字符实例构建一个子图，并通过根节点顺序连接合并成一个完整的图。其次基于该图，我们设计了一个图卷积网络(GTR)进行视觉文本推理。同时我们将GTR 和语言模型结构并行构建S-GTR，通过相互学习有效地利用视觉语言互补性。另外GTR 可以插入不同的STR 模型以提高其识别性能。实验证明了所提方法的有效性，S-GTR 在六个通用场景文字识别数据集上获得较好表现，并可以推广到多语言数据集。

https://www.zhuanzhi.ai/paper/423d31bbe1e7fe0d5ca545b8b3734b7f

成为VIP会员查看完整内容

17

相关内容

AAAI 2022

【AAAI2022】基于先验偏差的阻力训练方法（RTPB）的场景图生成

【AAAI2022】基于先验偏差的阻力训练方法（RTPB）的场景图生成

专知会员服务

13+阅读 · 2022年2月8日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

【AAAI2022】基于对比时空前置学习的视频自监督表示

【AAAI2022】基于对比时空前置学习的视频自监督表示

专知会员服务

20+阅读 · 2021年12月19日

【AAAI2022】利用化学元素知识图谱进行分子对比学习

【AAAI2022】利用化学元素知识图谱进行分子对比学习

专知会员服务

28+阅读 · 2021年12月3日

【ICML2021】通过文本生成统一视觉和语言任务

专知会员服务

19+阅读 · 2021年9月13日

【CVPR2021】自监督几何感知

【CVPR2021】自监督几何感知

专知会员服务

46+阅读 · 2021年3月6日

【CVPR2021】基于反事实推断的视觉问答框架

【CVPR2021】基于反事实推断的视觉问答框架

专知会员服务

27+阅读 · 2021年3月4日

【AAAI2021】通过知识到文本转换来测试知识增强的常识性问题回答

【AAAI2021】通过知识到文本转换来测试知识增强的常识性问题回答

专知会员服务

29+阅读 · 2021年1月17日

【AAAI2021】用于多标签图像分类的深度语义词典学习

【AAAI2021】用于多标签图像分类的深度语义词典学习

专知会员服务

15+阅读 · 2020年12月30日

【AAAI2021】层次图胶囊网络

【AAAI2021】层次图胶囊网络

专知会员服务

84+阅读 · 2020年12月18日

【CVPR2022】基于粗-精视觉Transformer的仿射医学图像配准

【CVPR2022】基于粗-精视觉Transformer的仿射医学图像配准

专知

4+阅读 · 2022年4月2日

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

专知

3+阅读 · 2022年3月17日

【CVPR2022】双曲图像分割

【CVPR2022】双曲图像分割

专知

2+阅读 · 2022年3月14日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知

3+阅读 · 2022年3月3日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知

3+阅读 · 2021年12月20日

AAAI2022 | KCL: 化学元素知识图谱指导下的分子图对比学习

AAAI2022 | KCL: 化学元素知识图谱指导下的分子图对比学习

图与推荐

3+阅读 · 2021年12月16日

【AAAI2022】利用化学元素知识图谱进行分子对比学习

【AAAI2022】利用化学元素知识图谱进行分子对比学习

专知

0+阅读 · 2021年12月3日

【CVPR2021】基于端到端预训练的视觉-语言表征学习

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知

3+阅读 · 2021年4月9日

【CVPR2021】细粒度多标签分类

【CVPR2021】细粒度多标签分类

专知

44+阅读 · 2021年3月8日

联合空谱上下文的高光谱遥感图像低秩表示分类理论与算法

国家自然科学基金

0+阅读 · 2014年12月31日

具有3D空间辨识力的视觉显著计算模型研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于词向量表示的大规模知识图谱构建方法研究

国家自然科学基金

8+阅读 · 2014年12月31日

融合多尺度上下文的图像标注研究

国家自然科学基金

2+阅读 · 2013年12月31日

神经信息编码中的鲁棒性特征子集选择研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于主题模型的枢轴语言统计机器翻译研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于压缩感知的缺损杂草种子的机器视觉鉴别

国家自然科学基金

0+阅读 · 2012年12月31日

汉语全文词义标注关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于特征结构关系的目标分类研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于视频语义理解的艺术风格化研究

国家自然科学基金

1+阅读 · 2009年12月31日

ARCLIN: Automated API Mention Resolution for Unformatted Texts

Arxiv

0+阅读 · 2022年4月20日

NTIRE 2022 Challenge on Super-Resolution and Quality Enhancement of Compressed Video: Dataset, Methods and Results

Arxiv

0+阅读 · 2022年4月20日

A Dynamic 3D Spontaneous Micro-expression Database: Establishment and Evaluation

Arxiv

0+阅读 · 2022年4月20日

VCoach: A Customizable Visualization and Analysis System for Video-based Running Coaching

Arxiv

0+阅读 · 2022年4月19日

I M Avatar: Implicit Morphable Head Avatars from Videos

Arxiv

0+阅读 · 2022年4月19日

NAFSSR: Stereo Image Super-Resolution Using NAFNet

Arxiv

0+阅读 · 2022年4月19日

Transformer-based Multimodal Information Fusion for Facial Expression Analysis

Transformer-based Multimodal Information Fusion for Facial Expression Analysis

Arxiv

0+阅读 · 2022年4月18日

DHNet: Double MPEG-4 Compression Detection via Multiple DCT Histograms

DHNet: Double MPEG-4 Compression Detection via Multiple DCT Histograms

Arxiv

0+阅读 · 2022年4月15日

Text Generation from Knowledge Graphs with Graph Transformers

Arxiv

35+阅读 · 2019年4月4日

Constructing Narrative Event Evolutionary Graph for Script Event Prediction

Arxiv

11+阅读 · 2018年5月16日

VIP会员

相关主题

相关VIP内容

【AAAI2022】基于先验偏差的阻力训练方法（RTPB）的场景图生成

【AAAI2022】基于先验偏差的阻力训练方法（RTPB）的场景图生成

专知会员服务

13+阅读 · 2022年2月8日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

【AAAI2022】基于对比时空前置学习的视频自监督表示

【AAAI2022】基于对比时空前置学习的视频自监督表示

专知会员服务

20+阅读 · 2021年12月19日

【AAAI2022】利用化学元素知识图谱进行分子对比学习

【AAAI2022】利用化学元素知识图谱进行分子对比学习

专知会员服务

28+阅读 · 2021年12月3日

【ICML2021】通过文本生成统一视觉和语言任务

专知会员服务

19+阅读 · 2021年9月13日

【CVPR2021】自监督几何感知

【CVPR2021】自监督几何感知

专知会员服务

46+阅读 · 2021年3月6日

【CVPR2021】基于反事实推断的视觉问答框架

【CVPR2021】基于反事实推断的视觉问答框架

专知会员服务

27+阅读 · 2021年3月4日

【AAAI2021】通过知识到文本转换来测试知识增强的常识性问题回答

【AAAI2021】通过知识到文本转换来测试知识增强的常识性问题回答

专知会员服务

29+阅读 · 2021年1月17日

【AAAI2021】用于多标签图像分类的深度语义词典学习

【AAAI2021】用于多标签图像分类的深度语义词典学习

专知会员服务

15+阅读 · 2020年12月30日

【AAAI2021】层次图胶囊网络

【AAAI2021】层次图胶囊网络

专知会员服务

84+阅读 · 2020年12月18日

热门VIP内容

开通专知VIP会员享更多权益服务

GPT-5如何对齐？从硬性拒绝到安全完成：走向以输出为中心的安全训练

【伯克利博士论文】超越人类监督的视觉智能

【ICCV2025】SO(3) 上连续非保守动力系统的预测

2025年中国数据要素行业发展研究报告

相关资讯

【CVPR2022】基于粗-精视觉Transformer的仿射医学图像配准

【CVPR2022】基于粗-精视觉Transformer的仿射医学图像配准

专知

4+阅读 · 2022年4月2日

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

专知

3+阅读 · 2022年3月17日

【CVPR2022】双曲图像分割

【CVPR2022】双曲图像分割

专知

2+阅读 · 2022年3月14日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知

3+阅读 · 2022年3月3日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知

3+阅读 · 2021年12月20日

AAAI2022 | KCL: 化学元素知识图谱指导下的分子图对比学习

AAAI2022 | KCL: 化学元素知识图谱指导下的分子图对比学习

图与推荐

3+阅读 · 2021年12月16日

【AAAI2022】利用化学元素知识图谱进行分子对比学习

【AAAI2022】利用化学元素知识图谱进行分子对比学习

专知

0+阅读 · 2021年12月3日

【CVPR2021】基于端到端预训练的视觉-语言表征学习

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知

3+阅读 · 2021年4月9日

【CVPR2021】细粒度多标签分类

【CVPR2021】细粒度多标签分类

专知

44+阅读 · 2021年3月8日

相关基金

联合空谱上下文的高光谱遥感图像低秩表示分类理论与算法

国家自然科学基金

0+阅读 · 2014年12月31日

具有3D空间辨识力的视觉显著计算模型研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于词向量表示的大规模知识图谱构建方法研究

国家自然科学基金

8+阅读 · 2014年12月31日

融合多尺度上下文的图像标注研究

国家自然科学基金

2+阅读 · 2013年12月31日

神经信息编码中的鲁棒性特征子集选择研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于主题模型的枢轴语言统计机器翻译研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于压缩感知的缺损杂草种子的机器视觉鉴别

国家自然科学基金

0+阅读 · 2012年12月31日

汉语全文词义标注关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于特征结构关系的目标分类研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于视频语义理解的艺术风格化研究

国家自然科学基金

1+阅读 · 2009年12月31日

相关论文

ARCLIN: Automated API Mention Resolution for Unformatted Texts

Arxiv

0+阅读 · 2022年4月20日

NTIRE 2022 Challenge on Super-Resolution and Quality Enhancement of Compressed Video: Dataset, Methods and Results

Arxiv

0+阅读 · 2022年4月20日

A Dynamic 3D Spontaneous Micro-expression Database: Establishment and Evaluation

Arxiv

0+阅读 · 2022年4月20日

VCoach: A Customizable Visualization and Analysis System for Video-based Running Coaching

Arxiv

0+阅读 · 2022年4月19日

I M Avatar: Implicit Morphable Head Avatars from Videos

Arxiv

0+阅读 · 2022年4月19日

NAFSSR: Stereo Image Super-Resolution Using NAFNet

Arxiv

0+阅读 · 2022年4月19日

Transformer-based Multimodal Information Fusion for Facial Expression Analysis

Transformer-based Multimodal Information Fusion for Facial Expression Analysis

Arxiv

0+阅读 · 2022年4月18日

DHNet: Double MPEG-4 Compression Detection via Multiple DCT Histograms

DHNet: Double MPEG-4 Compression Detection via Multiple DCT Histograms

Arxiv

0+阅读 · 2022年4月15日

Text Generation from Knowledge Graphs with Graph Transformers

Arxiv

35+阅读 · 2019年4月4日

Constructing Narrative Event Evolutionary Graph for Script Event Prediction

Arxiv

11+阅读 · 2018年5月16日

微信扫码咨询专知VIP会员