视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。 翻译为中文:一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是给定的图片进行问答。
【2022新书】视觉问答 (VQA):从理论到应用
专知会员服务
62+阅读 · 2022年5月24日
【CVPR2021】基于反事实推断的视觉问答框架
专知会员服务
26+阅读 · 2021年3月4日
知识驱动的视觉知识学习,以VQA视觉问答为例,31页ppt
专知会员服务
35+阅读 · 2020年9月25日
【ACMMM2020】条件推理的医学视觉问答
专知会员服务
38+阅读 · 2020年9月9日
近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码
专知会员服务
35+阅读 · 2020年1月10日
参考链接
微信扫码咨询专知VIP会员