[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答

2021 年 11 月 14 日 专知

本文简要介绍来自中国传媒大学和中国科学院信息工程研究所合作的ACM MM 2021的论文“Beyond OCR + VQA: Involving OCR into the Flow for Robust and Accurate TextVQA”。文章提出了一个对文字识别结果鲁棒的文本视觉问答方法BOV:通过将光学字符识别(OCR)融入文本视觉问答(TextVQA)的前向处理流程,即借助来自文字检测和文字识别两个阶段的多模态线索,实现在没有准确识别文字的情况下也能获取对文字的合理的语义表示,并利用TextVQA任务丰富的上下文信息对解码的答案进行自适应修正。

一、研究背景



为了解决通用视觉问答(VQA)方法无法处理图像中文字信息的缺陷,文本视觉问答(TextVQA)任务被提出。TextVQA为了回答与图像中文字相关的问题,需要同时考虑视觉场景和文字等多个模态的信息及其关系,具有很大挑战。目前主流的方法通过引入一个外部的光学字符识别(OCR)模块作为前处理,再将其与VQA框架结合预测答案,这会使得TextVQA性能很大程度上受到OCR精度的影响,具体表现为以下两种误差累积传播现象:1)OCR错误使得对文字的直接语义编码错误,导致多模态信息的交互推理过程出现偏差,从而无法定位出准确的答案。2)即使是在推理和定位答案正确的情况下,OCR错误仍然会导致最终从OCR结果中“复制”的答案错误。另外,视觉物体模态与图像文字、问题模态交互时存在语义间隔,使得多模态信息无法有效融合。

二、方法简介



图 1 模型整体框架

图1是BOV模型的整体框架,它基于Transformer网络实现问题、图像文字和视觉物体三种模态信息的交互。区别于之前的方法,BOV在文字模态和物体模态分别设计一个模块来实现视觉到语义的映射,从而获得视觉增强的文字表征和语义导向的物体表征,目的是增强特征表示的鲁棒性,减小OCR错误和物体识别错误对推理的影响。另外在答案预测模块提出一个上下文感知的答案修正模块(CRM)对“复制”的答案词进行校正。
各模块具体细节如下:
1.视觉增强的文字表征

图 2 文字相关的视觉语义映射网络(TVS)结构图

该方法提出一个文字相关的视觉语义映射网络(TVS),结构如图2所示。该网络包含一个文字图像矫正模块,一个由CNN和Bi-LSTM组成的编码模块,一个由基于注意力机制的GRU组成的解码模块,以及一个根据文字视觉信息预测语义信息的中间语义模块。TVS利用SynthText和Synth90K数据集,通过最小化识别损失和语义损失进行训练,其中语义损失由真实和预测的语义特征向量间的余弦距离计算得到。TVS的优势有两点:1)通过语义损失的监督,编码模块能产生与文字解码更相关的视觉特征,从而提供更准确的识别结果。2)TVS为直接由文字图像的视觉特性获得语义表示提供可能。
假设图像中包含N个文字实例,将TVS提取的视觉导出的文字表征( ,其中)与FastText( )、PHOC( )、Faster R-CNN视觉( )和位置( )特征结合,得到最终的视觉增强的文字表征:  
其中, 是可学习的参数矩阵,LN是层归一化。
2.语义导向的物体表征  

图 3 语义导向的物体识别网络(SEO-FRCN)结构图

为了缓解由视觉特征表示的物体模态与文字、问题模态间存在较大语义间隔的问题,该方法设计了一个语义导向的物体识别网络(SEO-FRCN),结构如图3所示。SEO-FRCN在原始Faster R-CNN的基础上扩展一个分支来预测物体类别嵌入向量,其用物体类别名称的语义特征向量监督。SEO-FRCN将视觉物体当作一种特殊的文字进行处理,使得更大语义关联的视觉物体拥有更高的特征相似度,例如Car和Plate,Traffic Light和Sign。
假设图像中包含M个视觉物体,采用在Visual Genome数据集上训练的SEO-FRCN提取每个物体的视觉特征( ,其中 )和位置特征( ),再与预测的物体类别嵌入向量( )进行结合,得到最终的物体表征:  
其中, 是可学习的参数矩阵,LN是层归一化。
3.上下文感知的答案修正  

图 4 上下文感知的修正模块(CRM)结构图

在答案预测阶段,该方法提出一个上下文感知的答案修正模块(CRM)作为后处理来改进“复制”的答案。CRM结构如图4所示。具体来说,如果某个解码步的输出指向图像中的文字,则将它作为一个候选答案词,利用该候选词的上下文信息,即输入的问题、其他文字信息以及相关的物体信息对其进行修正。CRM由一个Transformer网络和一个二分类器构成,其中Transformer网络对上下文信息进行融合交互。将Transformer对应候选词的输出向量经过一个线性映射层和一个Sigmoid函数执行二分类,预测一个相关分数,通过最小化交叉熵损失训练。训练数据通过将多个外部OCR系统的候选识别结果和真实答案进行比对来构造。如果候选识别结果与真实答案词相同,则标注为正样本(相关分数为1);否则,如果候选识别结果与真实答案词的IOU大于设定阈值,则标注为负样本(相关分数为0)。前向推断时,则将多个外部OCR系统的识别结果送入CRM,选择相关分数最大的识别结果作为最终的答案词输出。

三、主要实验和可视化结果



表 1 在TextVQA数据集上的消融实验

图 5 BOV与M4C在不同OCR结果时的比较(Rank1至Rank4的OCR准确率逐步下降)

表 2 BOV与已有方法在TextVQA数据集上的比较  
表 3 BOV与已有方法在ST-VQA Task3数据集上的比较  

图 6 BOV与M4C的定性比较

四、总结与讨论



BOV方法通过将OCR融入TextVQA的前向处理流程,构建了一个鲁棒且准确的TextVQA模型。区别于以前的方法将OCR模块视作固定的前处理,BOV联合OCR和VQA来消除OCR错误的负面影响。具体地,提出了一个视觉增强的文字表征和一个语义导向的视觉表征来减小多模态信息间的语义间隔,并增强特征表示。为了提升对OCR的鲁棒性,进一步提出了一个上下文感知的答案修正模块,在上下文信息的辅助下,从多个候选答案中选择正确的答案。实验证明该方法在不同OCR条件下都能取得较好的性能,优于已有的方法,而且能够在真实场景下发挥更大潜能。

相关资源



论文地址:
https://dl.acm.org/doi/10.1145/3474085.3475606


原文作者: Gangyan Zeng, Yuan Zhang, Yu Zhou, Xiaomeng Yang


撰稿:曾港艳、周宇

编排:高 学
审校:殷 飞
发布:金连文

 


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“TVQA” 就可以获取[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答》专知下载链接

专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!


欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
2

相关内容

视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。 翻译为中文:一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是给定的图片进行问答。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【博士论文】视觉语言交互中的视觉推理研究
专知会员服务
61+阅读 · 2021年12月1日
[ICCV 2021] 联合视觉语义推理:文本识别的多级解码器
专知会员服务
18+阅读 · 2021年11月28日
【ICCV2021】多层次对比学习的跨模态检索方法
专知会员服务
22+阅读 · 2021年10月24日
专知会员服务
18+阅读 · 2021年9月23日
【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
37+阅读 · 2021年4月9日
【ACMMM2020】零样本语义分割的上下文感知特征生成
专知会员服务
15+阅读 · 2020年8月21日
近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码
专知会员服务
35+阅读 · 2020年1月10日
论文浅尝 - ISWC2021 | 当知识图谱遇上零样本视觉问答
开放知识图谱
1+阅读 · 2021年9月13日
CVPR 2020 | 细粒度文本视频跨模态检索
AI科技评论
17+阅读 · 2020年3月24日
论文盘点:CVPR 2019 - 文本检测专题
PaperWeekly
14+阅读 · 2019年5月31日
白翔:复杂开放场景中的文本理解
深度学习大讲堂
12+阅读 · 2018年6月5日
微信OCR(1)——公众号图文识别中的文本检测
微信AI
17+阅读 · 2017年11月22日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
13+阅读 · 2021年10月22日
VIP会员
相关VIP内容
【博士论文】视觉语言交互中的视觉推理研究
专知会员服务
61+阅读 · 2021年12月1日
[ICCV 2021] 联合视觉语义推理:文本识别的多级解码器
专知会员服务
18+阅读 · 2021年11月28日
【ICCV2021】多层次对比学习的跨模态检索方法
专知会员服务
22+阅读 · 2021年10月24日
专知会员服务
18+阅读 · 2021年9月23日
【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
37+阅读 · 2021年4月9日
【ACMMM2020】零样本语义分割的上下文感知特征生成
专知会员服务
15+阅读 · 2020年8月21日
近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码
专知会员服务
35+阅读 · 2020年1月10日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员