【AAAI2021】面向真实世界的鲁棒视觉信息提取:新的数据集和新颖的解决方案 - 专知

会员服务 ·

0

【AAAI2021】面向真实世界的鲁棒视觉信息提取:新的数据集和新颖的解决方案

2021 年 2 月 18 日 专知

Towards Robust Visual Information Extraction in Real World: New Dataset and Novel Solution

近年来，视觉信息提取技术因其在文档理解、自动标注、智能教育等方面的先进应用而备受关注。现有的研究大多将这一问题解耦为文本点识别(text detection and recognition)和信息提取几个独立的子任务，在优化过程中完全忽略了它们之间的高相关性。在本文中，我们提出了一个面向真实场景的鲁棒视觉信息提取系统(VIES)，它是一个统一的端到端可训练的框架，以单个文档图像作为输入和输出结构化信息，同时进行文本检测、识别和信息提取。信息提取分支从文本点识别中收集丰富的视觉和语义表征，进行多模态特征融合，提供更高层次的语义线索，有助于文本点识别的优化。此外，针对公共基准的不足，我们构建了一个全注释数据集EPHOIE (https://github.com/HCIILAB/EPHOIE)，该数据集是第一个同时用于文本识别和视觉信息提取的中文基准。EPHOIE包含1,494张复杂布局和背景的试卷头图像，包括15,771个中文手写或打印文本实例。与最先进的方法相比，我们的VIES在EPHOIE数据集中显示了显著的优越性能，并且在端到端场景下，在广泛使用的SROIE数据集上获得9.01%的F-score增益。

https://www.zhuanzhi.ai/paper/621eb7d838c761426bd7337cf6af6f1f

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“VIES” 可以获取《【AAAI2021】面向真实世界的鲁棒视觉信息提取:新的数据集和新颖的解决方案》专知下载链接索引

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取5000+AI主题知识资源

登录查看更多

12

相关内容

视觉信息提取

视觉信息提取

【CVPR2021】面向通用领域自适应的领域共识聚类

专知会员服务

30+阅读 · 2021年5月6日

【WWW2021】面向时空图预测的神经结构搜索

【WWW2021】面向时空图预测的神经结构搜索

专知会员服务

23+阅读 · 2021年4月23日

【WWW2021】自监督多通道超图卷积网络

专知会员服务

40+阅读 · 2021年4月5日

【CVPR2021】自监督几何感知

【CVPR2021】自监督几何感知

专知会员服务

46+阅读 · 2021年3月6日

【CVPR2021】面向开放世界的目标检测

专知会员服务

27+阅读 · 2021年3月5日

【AAAI2021】基于双任务一致性的半监督医学图像分割

【AAAI2021】基于双任务一致性的半监督医学图像分割

专知会员服务

31+阅读 · 2021年2月7日

【AAAI2021】缓解语言模型政治偏见

专知会员服务

22+阅读 · 2021年2月6日

【AAAI2021】时间关系建模与自监督的动作分割

【AAAI2021】时间关系建模与自监督的动作分割

专知会员服务

37+阅读 · 2021年1月24日

【AAAI2021】层次图胶囊网络

【AAAI2021】层次图胶囊网络

专知会员服务

84+阅读 · 2020年12月18日

【AAAI2021】多领域多任务预演的终身学习

专知会员服务

25+阅读 · 2020年12月16日

【AAAI2021】自监督对应学习的对比转换

【AAAI2021】自监督对应学习的对比转换

专知

12+阅读 · 2020年12月11日

【KDD2020】复杂异构网络中的高阶聚类

【KDD2020】复杂异构网络中的高阶聚类

专知

8+阅读 · 2020年8月27日

图神经网络架构，稳定性，可迁移性

图神经网络架构，稳定性，可迁移性

专知

5+阅读 · 2020年8月8日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

22+阅读 · 2020年7月3日

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

专知

7+阅读 · 2020年4月7日

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

专知

12+阅读 · 2020年3月31日

【资源推荐】公开数据集收集汇总

【资源推荐】公开数据集收集汇总

专知

19+阅读 · 2019年6月5日

视觉推理任务中的ImageNet：斯坦福GQA数据集重磅发布

视觉推理任务中的ImageNet：斯坦福GQA数据集重磅发布

专知

23+阅读 · 2019年1月30日

新任务&数据集：视觉常识推理(VCR)

新任务&数据集：视觉常识推理(VCR)

专知

50+阅读 · 2018年12月1日

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

专知

29+阅读 · 2018年9月27日

Data Poisoning Attacks and Defenses to Crowdsourcing Systems

Arxiv

8+阅读 · 2021年2月18日

Graph Contrastive Learning with Adaptive Augmentation

Arxiv

5+阅读 · 2021年2月15日

Dynamic Neural Networks: A Survey

Arxiv

37+阅读 · 2021年2月10日

Towards Robust Visual Information Extraction in Real World: New Dataset and Novel Solution

Arxiv

10+阅读 · 2021年1月24日

Recommending Themes for Ad Creative Design via Visual-Linguistic Representations

Arxiv

4+阅读 · 2020年2月27日

Object-Contextual Representations for Semantic Segmentation

Object-Contextual Representations for Semantic Segmentation

Arxiv

3+阅读 · 2019年9月24日

Text Classification Algorithms: A Survey

Arxiv

15+阅读 · 2019年6月25日

A CNN-RNN Framework with a Novel Patch-Based Multi-Attention Mechanism for Multi-Label Image Classification in Remote Sensing

A CNN-RNN Framework with a Novel Patch-Based Multi-Attention Mechanism for Multi-Label Image Classification in Remote Sensing

Arxiv

3+阅读 · 2019年2月28日

iQIYI-VID: A Large Dataset for Multi-modal Person Identification

Arxiv

4+阅读 · 2018年11月19日

Towards Training Probabilistic Topic Models on Neuromorphic Multi-chip Systems

Arxiv

3+阅读 · 2018年4月10日

VIP会员

相关主题

视觉信息提取

相关VIP内容

【CVPR2021】面向通用领域自适应的领域共识聚类

专知会员服务

30+阅读 · 2021年5月6日

【WWW2021】面向时空图预测的神经结构搜索

【WWW2021】面向时空图预测的神经结构搜索

专知会员服务

23+阅读 · 2021年4月23日

【WWW2021】自监督多通道超图卷积网络

专知会员服务

40+阅读 · 2021年4月5日

【CVPR2021】自监督几何感知

【CVPR2021】自监督几何感知

专知会员服务

46+阅读 · 2021年3月6日

【CVPR2021】面向开放世界的目标检测

专知会员服务

27+阅读 · 2021年3月5日

【AAAI2021】基于双任务一致性的半监督医学图像分割

【AAAI2021】基于双任务一致性的半监督医学图像分割

专知会员服务

31+阅读 · 2021年2月7日

【AAAI2021】缓解语言模型政治偏见

专知会员服务

22+阅读 · 2021年2月6日

【AAAI2021】时间关系建模与自监督的动作分割

【AAAI2021】时间关系建模与自监督的动作分割

专知会员服务

37+阅读 · 2021年1月24日

【AAAI2021】层次图胶囊网络

【AAAI2021】层次图胶囊网络

专知会员服务

84+阅读 · 2020年12月18日

【AAAI2021】多领域多任务预演的终身学习

专知会员服务

25+阅读 · 2020年12月16日

热门VIP内容

开通专知VIP会员享更多权益服务

操作系统智能体：基于多模态大模型（MLLM）的通用计算设备智能体综述

《美国太空军系统全生命周期建模、仿真与分析效能提升方案》最新84页报告

【博士论文】推进数据高效的深度学习：非参数 Transformer、主动测试与上下文学习

自主人工智能：未来战争是否将是自主化的？

相关资讯

【AAAI2021】自监督对应学习的对比转换

【AAAI2021】自监督对应学习的对比转换

专知

12+阅读 · 2020年12月11日

【KDD2020】复杂异构网络中的高阶聚类

【KDD2020】复杂异构网络中的高阶聚类

专知

8+阅读 · 2020年8月27日

图神经网络架构，稳定性，可迁移性

图神经网络架构，稳定性，可迁移性

专知

5+阅读 · 2020年8月8日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

22+阅读 · 2020年7月3日

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

专知

7+阅读 · 2020年4月7日

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

专知

12+阅读 · 2020年3月31日

【资源推荐】公开数据集收集汇总

【资源推荐】公开数据集收集汇总

专知

19+阅读 · 2019年6月5日

视觉推理任务中的ImageNet：斯坦福GQA数据集重磅发布

视觉推理任务中的ImageNet：斯坦福GQA数据集重磅发布

专知

23+阅读 · 2019年1月30日

新任务&数据集：视觉常识推理(VCR)

新任务&数据集：视觉常识推理(VCR)

专知

50+阅读 · 2018年12月1日

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

专知

29+阅读 · 2018年9月27日

相关论文

Data Poisoning Attacks and Defenses to Crowdsourcing Systems

Arxiv

8+阅读 · 2021年2月18日

Graph Contrastive Learning with Adaptive Augmentation

Arxiv

5+阅读 · 2021年2月15日

Dynamic Neural Networks: A Survey

Arxiv

37+阅读 · 2021年2月10日

Towards Robust Visual Information Extraction in Real World: New Dataset and Novel Solution

Arxiv

10+阅读 · 2021年1月24日

Recommending Themes for Ad Creative Design via Visual-Linguistic Representations

Arxiv

4+阅读 · 2020年2月27日

Object-Contextual Representations for Semantic Segmentation

Object-Contextual Representations for Semantic Segmentation

Arxiv

3+阅读 · 2019年9月24日

Text Classification Algorithms: A Survey

Arxiv

15+阅读 · 2019年6月25日

A CNN-RNN Framework with a Novel Patch-Based Multi-Attention Mechanism for Multi-Label Image Classification in Remote Sensing

A CNN-RNN Framework with a Novel Patch-Based Multi-Attention Mechanism for Multi-Label Image Classification in Remote Sensing

Arxiv

3+阅读 · 2019年2月28日

iQIYI-VID: A Large Dataset for Multi-modal Person Identification

Arxiv

4+阅读 · 2018年11月19日

Towards Training Probabilistic Topic Models on Neuromorphic Multi-chip Systems

Arxiv

3+阅读 · 2018年4月10日

大家都在搜

软件无线电

大型语言模型

CMU博士论文

OpenKG开源系列 | 海洋鱼类百科知识图谱（浙江大学）

微信扫码咨询专知VIP会员