视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。 翻译为中文:一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是给定的图片进行问答。
打包看 ——2018年图形图像论文
计算机研究与发展
0+阅读 · 2019年1月8日
IJCAI 2022 | 使用陈述句进行视觉问答的Prompt Tuning
BERT新转变:面向视觉基础进行预训练!
AI科技评论
1+阅读 · 2019年12月28日
双线性池化(Bilinear Pooling)详解、改进及应用
极市平台
1+阅读 · 2020年1月7日
【笔记】双线性池化(Bilinear Pooling)详解、改进及应用
深度学习自然语言处理
6+阅读 · 2020年2月9日
一文纵览 Vision-and-Language 领域最新研究与进展
AI科技评论
7+阅读 · 2019年5月14日
人工智能 | SCI期刊专刊信息5条
Call4Papers
2+阅读 · 2019年7月4日
参考链接
微信扫码咨询专知VIP会员