In this paper, we propose an end-to-end structured multimodal attention (SMA) neural network to mainly solve the first two issues above. SMA first uses a structural graph representation to encode the object-object, object-text and text-text relationships appearing in the image, and then designs a multimodal graph attention network to reason over it. Finally, the outputs from the above modules are processed by a global-local attentional answering module to produce an answer splicing together tokens from both OCR and general vocabulary iteratively by following M4C. Our proposed model outperforms the SoTA models on TextVQA dataset and two tasks of ST-VQA dataset among all models except pre-training based TAP. Demonstrating strong reasoning ability, it also won first place in TextVQA Challenge 2020. We extensively test different OCR methods on several reasoning models and investigate the impact of gradually increased OCR performance on TextVQA benchmark. With better OCR results, different models share dramatic improvement over the VQA accuracy, but our model benefits most blessed by strong textual-visual reasoning ability. To grant our method an upper bound and make a fair testing base available for further works, we also provide human-annotated ground-truth OCR annotations for the TextVQA dataset, which were not given in the original release. The code and ground-truth OCR annotations for the TextVQA dataset are available at https://github.com/ChenyuGAO-CS/SMA


翻译:在本文中,我们提出一个端到端结构的多式联运关注神经网络(SMA),主要解决以上头两个问题。 SMA首先使用结构图示显示结构图,将图像中出现的对象对象、对象文本和文字关系编码,然后设计一个多式图注意网络,以了解其中的道理。最后,上述模块的产出由一个全球-地方注意回答模块处理,以生成来自OCR的答案拼接符号,并在M4C之后迭接通用词汇中生成一个答案拼接符号。我们提议的模型优于TextVQA数据集的 SoTA模型和ST-VQA数据集,除了基于TAP的预培训外,所有模型中的St-VQA数据集的两项任务。展示了强大的推理能力,并在TextVA挑战2020中赢得了第一位。我们广泛测试了不同的OCR方法,并调查了逐渐提高OCR绩效对TextVQA基准的影响。有了更好的OCRA结果,不同的模型比VA的准确性改进了VQA的准确性,但我们的模型最有强大的文本-视觉推理能力。

0
下载
关闭预览

相关内容

一份简单《图神经网络》教程,28页ppt
专知会员服务
123+阅读 · 2020年8月2日
专知会员服务
183+阅读 · 2020年6月21日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Attention最新进展
极市平台
5+阅读 · 2020年5月30日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
Neural Module Networks for Reasoning over Text
Arxiv
9+阅读 · 2019年12月10日
VIP会员
Top
微信扫码咨询专知VIP会员