【2022新书】视觉问答 (VQA)：从理论到应用

视觉问答(Visual Question answer, VQA)通常是将图像、视频等视觉输入与与输入相关的自然语言问题结合起来，生成一个自然语言答案作为输出。这本质上是一个多学科的研究问题，涉及计算机视觉(CV)、自然语言处理(NLP)、知识表示与推理(KR)等。

此外，VQA必须克服一般图像理解和问答任务的挑战，以及使用混合质量输入的大规模数据库所带来的困难。然而，随着深度学习(DL)的出现，在CV和NLP中先进技术的存在以及相关大规模数据集的可用性的驱动下，我们最近看到了VQA方面的巨大进步，出现了更多的系统和有前景的结果。

这本书提供了VQA的全面概述，包括基本理论，模型，数据集，和有前途的未来方向。考虑到它的范围，它可以作为一本关于计算机视觉和自然语言处理的教科书，特别是对于研究人员和学生在视觉问题回答领域。它还强调了VQA中使用的关键模型。

https://link.springer.com/book/10.1007/978-981-19-0964-1

成为VIP会员查看完整内容

知识荟萃

精品入门和进阶教程、论文和代码整理等

查看相关VIP内容、论文、资讯等

【硬核书】迁移学习多智能体强化学习系统，131页pdf

专知会员服务

147+阅读 · 2022年7月8日

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

专知会员服务

124+阅读 · 2022年6月15日

【2022 新版书籍】第2版《可解释的机器学习：黑盒模型可解释性理解指南》，330页pdf

专知会员服务

159+阅读 · 2022年4月23日

【AAAI2022-Tutorial】可解释的人工智能:从理论到动机、工业应用、XAI编码和工程实践

专知会员服务

44+阅读 · 2022年2月25日

【新书】机器学习算法，模型与应用，154页pdf

专知会员服务

98+阅读 · 2022年1月20日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

【ICML2021-教程】无监督强化学习，285页ppt

专知会员服务

79+阅读 · 2021年7月23日

《图信号处理》新书，170页pdf阐述从图分析到图神经网络应用

专知会员服务

183+阅读 · 2021年1月4日

【经典书】计算语言学：模型、资源的应用程序，198页pdf

专知会员服务

32+阅读 · 2020年11月19日

知识驱动的视觉知识学习，以VQA视觉问答为例，31页ppt

专知会员服务

36+阅读 · 2020年9月25日

「深度学习视觉注意力」最新2022研究综述，概述50种软硬注意力机制方法

专知

5+阅读 · 2022年4月20日

万字深度好文！视觉-语言（VL）智能：任务、表征学习和大型模型

大数据文摘

3+阅读 · 2022年3月31日

视觉语言如何协同学习？港科大等最新《视觉语言智能》综述论文，全面阐述VL的任务、表示学习和大模型

专知

0+阅读 · 2022年3月10日

【新书】机器学习算法，模型与应用，154页pdf

专知

24+阅读 · 2022年1月20日

莫纳什大学最新「医学视觉问答」综述论文，带你全面了解MVQA数据集和方法

专知

2+阅读 · 2021年11月29日

最新《知识驱动的文本生成》综述论文，44页pdf

专知

25+阅读 · 2020年10月14日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

自然语言处理常识推理综述论文，60页pdf

专知

73+阅读 · 2019年4月4日

【AAAI 2018】多种注意力机制互补完成VQA（视觉问答），清华大学、香港中文大学等团队最新工作

专知

22+阅读 · 2017年12月17日

教程 | 如何使用深度学习为照片自动生成文本描述？

机器之心

10+阅读 · 2017年11月15日

天元数学交流项目图像处理中的数学理论及方法研讨会

国家自然科学基金

9+阅读 · 2017年12月31日

广义多项式混沌方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

具有推理能力的时空对象情境感知技术

国家自然科学基金

1+阅读 · 2012年12月31日

几类可压流体方程组的相关问题的数学分析与数值方法

国家自然科学基金

0+阅读 · 2012年12月31日

基于粗糙集与概念格相韵合的数据分析理论与方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

定性地理空间知识不确定性表达和推理及其在地理信息检索中的应用

国家自然科学基金

2+阅读 · 2011年12月31日

抽象约束回答集程序关键问题及在语义Web中的应用研究

国家自然科学基金

0+阅读 · 2009年12月31日

概念格中两个模型的数学刻画及应用

国家自然科学基金

0+阅读 · 2009年12月31日

视觉密码方案的构造

国家自然科学基金

0+阅读 · 2009年12月31日

模糊推理的机制及其逻辑基础

国家自然科学基金

1+阅读 · 2008年12月31日

An Introduction to Lifelong Supervised Learning

Arxiv

0+阅读 · 2022年7月10日

Recent, rapid advancement in visual question answering architecture: a review

Arxiv

0+阅读 · 2022年7月9日

Transformers Meet Visual Learning Understanding: A Comprehensive Review

Arxiv

28+阅读 · 2022年3月24日

Medical Visual Question Answering: A Survey

Arxiv

15+阅读 · 2021年11月19日

K-AID: Enhancing Pre-trained Language Models with Domain Knowledge for Question Answering

Arxiv

15+阅读 · 2021年9月22日

Counterfactual VQA: A Cause-Effect Look at Language Bias

Arxiv

16+阅读 · 2020年12月28日

Notes on Deep Learning for NLP

Arxiv

22+阅读 · 2018年8月30日

Generating Diverse and Accurate Visual Captions by Comparative Adversarial Learning

Arxiv

10+阅读 · 2018年4月11日

VQA-E: Explaining, Elaborating, and Enhancing Your Answers for Visual Questions

Arxiv

17+阅读 · 2018年3月20日

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

Arxiv

14+阅读 · 2018年3月14日

相关内容

知识荟萃

更多