视觉问答(Visual Question answer, VQA)通常是将图像、视频等视觉输入与与输入相关的自然语言问题结合起来,生成一个自然语言答案作为输出。这本质上是一个多学科的研究问题,涉及计算机视觉(CV)、自然语言处理(NLP)、知识表示与推理(KR)等。

此外,VQA必须克服一般图像理解和问答任务的挑战,以及使用混合质量输入的大规模数据库所带来的困难。然而,随着深度学习(DL)的出现,在CV和NLP中先进技术的存在以及相关大规模数据集的可用性的驱动下,我们最近看到了VQA方面的巨大进步,出现了更多的系统和有前景的结果。

这本书提供了VQA的全面概述,包括基本理论,模型,数据集,和有前途的未来方向。考虑到它的范围,它可以作为一本关于计算机视觉和自然语言处理的教科书,特别是对于研究人员和学生在视觉问题回答领域。它还强调了VQA中使用的关键模型。

https://link.springer.com/book/10.1007/978-981-19-0964-1

成为VIP会员查看完整内容
62

相关内容

视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。 翻译为中文:一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是给定的图片进行问答。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【硬核书】迁移学习多智能体强化学习系统,131页pdf
专知会员服务
143+阅读 · 2022年7月8日
【新书】机器学习算法,模型与应用,154页pdf
专知会员服务
94+阅读 · 2022年1月20日
【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习
专知会员服务
48+阅读 · 2021年12月20日
专知会员服务
76+阅读 · 2021年7月23日
【经典书】计算语言学:模型、资源的应用程序,198页pdf
专知会员服务
31+阅读 · 2020年11月19日
知识驱动的视觉知识学习,以VQA视觉问答为例,31页ppt
专知会员服务
35+阅读 · 2020年9月25日
自然语言处理常识推理综述论文,60页pdf
专知
73+阅读 · 2019年4月4日
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年7月10日
Arxiv
15+阅读 · 2021年11月19日
Arxiv
22+阅读 · 2018年8月30日
VIP会员
相关基金
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员