VIP内容 - 专知

会员服务 ·

视觉问答

视觉问答（Visual Question Answering，VQA），是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下： A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。翻译为中文：一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入，以生成一条自然语言答案作为输出。简单来说，VQA就是给定的图片进行问答。

文档视觉问答简述

文档视觉问答简述

专知会员服务

7+阅读 · 10月17日

高效视觉语言模型研究综述

高效视觉语言模型研究综述

专知会员服务

12+阅读 · 4月18日

【万字长文】视觉问答VQA：从早期发展到最新进展——综述

【万字长文】视觉问答VQA：从早期发展到最新进展——综述

专知会员服务

26+阅读 · 1月8日

【剑桥大学博士论文】使用检索方法增强多模态问答系统

【剑桥大学博士论文】使用检索方法增强多模态问答系统

专知会员服务

37+阅读 · 2024年11月8日

【法国索邦博士论文】视觉问答中的捷径学习(Shortcut Learning)

【法国索邦博士论文】视觉问答中的捷径学习(Shortcut Learning)

专知会员服务

27+阅读 · 2023年10月27日

CVPR 2023 | Prophet: 用小模型启发大语言模型解决外部知识图像问答

CVPR 2023 | Prophet: 用小模型启发大语言模型解决外部知识图像问答

专知会员服务

54+阅读 · 2023年4月1日

【CVPR2023】带有答案启发式的大型语言模型提示的知识视觉问答

【CVPR2023】带有答案启发式的大型语言模型提示的知识视觉问答

专知会员服务

38+阅读 · 2023年3月6日

电子科大最新《VQA与视觉推理》综述，详述最新数据集、方法与挑战综述

电子科大最新《VQA与视觉推理》综述，详述最新数据集、方法与挑战综述

专知会员服务

33+阅读 · 2023年1月2日

【2022新书】视觉问答 (VQA)：从理论到应用

【2022新书】视觉问答 (VQA)：从理论到应用

专知会员服务

63+阅读 · 2022年5月24日

【CVPR 2022】学习在动态视听情境中回答问题，Learning to Answer Questions in Dynamic Audio-Visual Scenarios

【CVPR 2022】学习在动态视听情境中回答问题，Learning to Answer Questions in Dynamic Audio-Visual Scenarios

专知会员服务

8+阅读 · 2022年3月12日

莫纳什大学最新「医学视觉问答」综述论文，带你全面了解MVQA数据集和方法

莫纳什大学最新「医学视觉问答」综述论文，带你全面了解MVQA数据集和方法

专知会员服务

28+阅读 · 2021年11月29日

【CVPR2021】基于反事实推断的视觉问答框架

【CVPR2021】基于反事实推断的视觉问答框架

专知会员服务

27+阅读 · 2021年3月4日

知识驱动的视觉知识学习，以VQA视觉问答为例，31页ppt

知识驱动的视觉知识学习，以VQA视觉问答为例，31页ppt

专知会员服务

36+阅读 · 2020年9月25日

【ACMMM2020】条件推理的医学视觉问答

【ACMMM2020】条件推理的医学视觉问答

专知会员服务

39+阅读 · 2020年9月9日

近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码

近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码

专知会员服务

37+阅读 · 2020年1月10日

参考链接

微信扫码咨询专知VIP会员