视觉问答(Visual Question answer, VQA)通常是将图像、视频等视觉输入与与输入相关的自然语言问题结合起来,生成一个自然语言答案作为输出。这本质上是一个多学科的研究问题,涉及计算机视觉(CV)、自然语言处理(NLP)、知识表示与推理(KR)等。
此外,VQA必须克服一般图像理解和问答任务的挑战,以及使用混合质量输入的大规模数据库所带来的困难。然而,随着深度学习(DL)的出现,在CV和NLP中先进技术的存在以及相关大规模数据集的可用性的驱动下,我们最近看到了VQA方面的巨大进步,出现了更多的系统和有前景的结果。
这本书提供了VQA的全面概述,包括基本理论,模型,数据集,和有前途的未来方向。考虑到它的范围,它可以作为一本关于计算机视觉和自然语言处理的教科书,特别是对于研究人员和学生在视觉问题回答领域。它还强调了VQA中使用的关键模型。