视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。 翻译为中文:一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是给定的图片进行问答。
AAAI 2022 | MAVEx—基于知识的视觉问答方法
PaperWeekly
3+阅读 · 2022年10月8日
IJCAI 2022 | 使用陈述句进行视觉问答的Prompt Tuning
【2022新书】视觉问答 (VQA):从理论到应用
参考链接
微信扫码咨询专知VIP会员