动态 | 视觉问答领域又一力作！斯坦福大学教授发布图像场景图问答数据集 GQA - 专知

会员服务 ·

0

动态 | 视觉问答领域又一力作！斯坦福大学教授发布图像场景图问答数据集 GQA

2019 年 2 月 6 日 AI研习社

AI 科技评论消息：GQA 是斯坦福大学教授 Christopher Manning 及其学生 Drew Hudson 一同打造的全新图像场景图问答数据集，旨在推动场景理解与视觉问答研究领域的进步。

据 Christopher Manning 教授及其学生 Drew Hudson 调查后发现，现有的视觉问答数据集主要存在两种缺陷：一个是基准失误，当中包括了基于语言先验的偏见、视觉偏见、过分关注显着对象、来源有误、对象缺位、答案不合逻辑、模型反应不一致等；一个是推理数据集的数量很有限。

为此，他们开发了一个用于对现实世界的图像进行视觉推理与综合回答的全新数据集 GQA，该数据集包含高达 20M 的各种日常生活图像，主要源自于 COCO 和 Flickr。每张图像都与图中的物体、属性与关系的场景图（scene graph）相关，创建上基于最新清洁版本的 Visual Genome。此外，每个问题都与其语义的结构化表示相关联，功能程序上指定必须采取一定的推理步骤才能进行回答。

GQA 数据集的许多问题涉及多种推理技巧、空间理解以及多步推理，比起人们先前常用的视觉回答数据集，更具有挑战性。他们保证了数据集的平衡性，严格控制不同问题组的答案分布，以防止人们通过语言和世界先验知识进行有据猜测。

最后，他们通过一套全新的指标来完善数据集，该指标不仅能测试模型的精确度，还可预测模型响应的一致性、有效性与合理性，从而帮助我们更了解模型背后的运作原理。虽说问题是自动生成的，但由于生成主要基于自然语言众包场景图，因此在语法性、多样性和惯用性上将有所保障。

为了鼓励更多人尝试使用 GQA 数据集，他们将从 2019 年 2 月开始举办相关比赛。他们希望 GQA 成为开发更强大和更有说服力的推理模型的关键助力，进而推动场景理解与视觉问答研究领域的进步。

via https://cs.stanford.edu/people/dorarad/gqa/download.html

点击阅读原文，查看 NeurIPS2018时间检验奖论文回顾：为什么深度学习适合大规模数据集

登录查看更多

0

相关内容

视觉问答

视觉问答（Visual Question Answering，VQA），是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下： A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。翻译为中文：一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入，以生成一条自然语言答案作为输出。简单来说，VQA就是给定的图片进行问答。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

专知会员服务

34+阅读 · 2020年4月2日

斯坦福大学李飞飞组发布Action Genome:一种新的表达形式，新的数据集，以及将动作分解成时空场景图的新模型

斯坦福大学李飞飞组发布Action Genome:一种新的表达形式，新的数据集，以及将动作分解成时空场景图的新模型

专知会员服务

40+阅读 · 2020年1月12日

近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码

近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码

专知会员服务

37+阅读 · 2020年1月10日

【斯坦福大学】场景图谱表示在计算机视觉中的应用，41页ppt

【斯坦福大学】场景图谱表示在计算机视觉中的应用，41页ppt

专知会员服务

52+阅读 · 2020年1月8日

斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能,195页PDF

斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能,195页PDF

专知会员服务

71+阅读 · 2019年10月27日

视觉推理任务中的ImageNet：斯坦福GQA数据集重磅发布

视觉推理任务中的ImageNet：斯坦福GQA数据集重磅发布

专知

23+阅读 · 2019年1月30日

斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能,195页PDF

斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能,195页PDF

专知

57+阅读 · 2018年12月16日

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

专知

29+阅读 · 2018年9月27日

CoQA！斯坦福召开新一轮QA比赛，剑指对话问答！

CoQA！斯坦福召开新一轮QA比赛，剑指对话问答！

专知

6+阅读 · 2018年8月23日

【学界】李飞飞学生最新论文：利用场景图生成图像

【学界】李飞飞学生最新论文：利用场景图生成图像

GAN生成式对抗网络

15+阅读 · 2018年4月9日

Adversarial NLI: A New Benchmark for Natural Language Understanding

Arxiv

4+阅读 · 2019年10月31日

GQA: A New Dataset for Real-World Visual Reasoning and Compositional Question Answering

Arxiv

3+阅读 · 2019年5月10日

FML: Face Model Learning from Videos

Arxiv

5+阅读 · 2018年12月18日

CoQA: A Conversational Question Answering Challenge

CoQA: A Conversational Question Answering Challenge

Arxiv

7+阅读 · 2018年8月21日

Question Answering through Transfer Learning from Large Fine-grained Supervision Data

Arxiv

3+阅读 · 2018年5月31日

VIP会员

相关主题

Christopher Manning

斯坦福大学 (Stanford University)

相关VIP内容

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

专知会员服务

34+阅读 · 2020年4月2日

斯坦福大学李飞飞组发布Action Genome:一种新的表达形式，新的数据集，以及将动作分解成时空场景图的新模型

斯坦福大学李飞飞组发布Action Genome:一种新的表达形式，新的数据集，以及将动作分解成时空场景图的新模型

专知会员服务

40+阅读 · 2020年1月12日

近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码

近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码

专知会员服务

37+阅读 · 2020年1月10日

【斯坦福大学】场景图谱表示在计算机视觉中的应用，41页ppt

【斯坦福大学】场景图谱表示在计算机视觉中的应用，41页ppt

专知会员服务

52+阅读 · 2020年1月8日

斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能,195页PDF

斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能,195页PDF

专知会员服务

71+阅读 · 2019年10月27日

热门VIP内容

开通专知VIP会员享更多权益服务

《基于AI的动态任务分配策略实现多智能体系统有意义人类控制》报告

《超越连接：AI驱动网络未来愿景》最新报告

人工智能赋能多域作战：能力与挑战

《战场空间决策优势：AI基础与应用研究》总结报告

相关资讯

视觉推理任务中的ImageNet：斯坦福GQA数据集重磅发布

视觉推理任务中的ImageNet：斯坦福GQA数据集重磅发布

专知

23+阅读 · 2019年1月30日

斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能,195页PDF

斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能,195页PDF

专知

57+阅读 · 2018年12月16日

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

专知

29+阅读 · 2018年9月27日

CoQA！斯坦福召开新一轮QA比赛，剑指对话问答！

CoQA！斯坦福召开新一轮QA比赛，剑指对话问答！

专知

6+阅读 · 2018年8月23日

【学界】李飞飞学生最新论文：利用场景图生成图像

【学界】李飞飞学生最新论文：利用场景图生成图像

GAN生成式对抗网络

15+阅读 · 2018年4月9日

相关论文

Adversarial NLI: A New Benchmark for Natural Language Understanding

Arxiv

4+阅读 · 2019年10月31日

GQA: A New Dataset for Real-World Visual Reasoning and Compositional Question Answering

Arxiv

3+阅读 · 2019年5月10日

FML: Face Model Learning from Videos

Arxiv

5+阅读 · 2018年12月18日

CoQA: A Conversational Question Answering Challenge

CoQA: A Conversational Question Answering Challenge

Arxiv

7+阅读 · 2018年8月21日

Question Answering through Transfer Learning from Large Fine-grained Supervision Data

Arxiv

3+阅读 · 2018年5月31日

大家都在搜

大型语言模型

蓝牙安全攻防

python知识点

从传统方法到深度学习—— bilateral filter 到 HDRNet的演进

微信扫码咨询专知VIP会员