【CVPR2020-中科院计算所】多模态GNN:在视觉信息和场景文字上联合推理

2020 年 4 月 7 日 专知

即使有可靠的OCR模型,要回答需要在图片中阅读文字的问题,也对现有模型构成了一个挑战。其中最困难的是图片中经常有罕见字,多义字,比如地名,产品名,球队名。


为了克服这个困难,我们的模型利用了图片中多个模态的丰富信息来推测图片中文字的语义,例如酒瓶上显眼位置的字样很可能是酒名。


有了这样的直观感受,我们设计了一个新的VQA模型---多模态图神经网络(MM-GNN)。它会首先构建一个具有三个子图的特征节点图,分别描述视觉,文字,和数字模态。此后,我们设计了三个融合子,在子图间或子图内进行信息传递。增强过后的节点特征被证明可以很好地帮助下游任务,我们在ST-VQA和Facebook的Text-VQA上都取得了SOTA的成绩。


https://www.zhuanzhi.ai/paper/f1260471e6f694ec2b3ba74413a5049f

https://arxiv.org/abs/2003.13962



专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“MGNN” 就可以获取【CVPR2020-中科院计算所】多模态GNN:在视觉信息和场景文字上联合推理》专知下载链接

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
7

相关内容

【斯坦福大学博士论文】自监督场景表示学习, 97页pdf
专知会员服务
92+阅读 · 2020年6月19日
【CVPR2020】视觉推理-可微自适应计算时间
专知会员服务
12+阅读 · 2020年4月28日
【CVPR2020】多模态社会媒体中危机事件分类
专知会员服务
53+阅读 · 2020年4月18日
多模态深度学习综述,18页pdf
专知
45+阅读 · 2020年3月29日
【中科院计算所】图卷积神经网络及其应用
李飞飞团队新作 - 有限标签的场景图预测
专知
27+阅读 · 2019年5月6日
新任务&数据集:视觉常识推理(VCR)
专知
50+阅读 · 2018年12月1日
Arxiv
7+阅读 · 2018年4月24日
Arxiv
28+阅读 · 2018年4月6日
VIP会员
Top
微信扫码咨询专知VIP会员