The study of algorithms to automatically answer visual questions currently is motivated by visual question answering (VQA) datasets constructed in artificial VQA settings. We propose VizWiz, the first goal-oriented VQA dataset arising from a natural VQA setting. VizWiz consists of over 31,000 visual questions originating from blind people who each took a picture using a mobile phone and recorded a spoken question about it, together with 10 crowdsourced answers per visual question. VizWiz differs from the many existing VQA datasets because (1) images are captured by blind photographers and so are often poor quality, (2) questions are spoken and so are more conversational, and (3) often visual questions cannot be answered. Evaluation of modern algorithms for answering visual questions and deciding if a visual question is answerable reveals that VizWiz is a challenging dataset. We introduce this dataset to encourage a larger community to develop more generalized algorithms that can assist blind people.


翻译:目前,对自动回答视觉问题的算法进行研究的动机是视觉问答(VQA)数据集。我们提议VizWiz,这是自然VQA设置中第一个面向目标的VQA数据集。VizWiz由来自盲人的31 000多个视觉问题组成,他们每人用手机拍摄一张照片并记录了对它的一个语音问题,同时每个视觉问题记录了10个众源解答。VizWiz与许多现有的VQA数据集不同,因为(1)图像由盲人摄影师拍摄,因此往往质量差,(2)问题是交谈性的,(3)往往无法回答视觉问题。用于回答视觉问题的现代算法评估以及决定视觉问题是否可回答,显示VizWiz是一个具有挑战性的数据集。我们介绍这个数据集是为了鼓励更广大的社群开发更普遍的算法,以帮助盲人。

9
下载
关闭预览

相关内容

视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。 翻译为中文:一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是给定的图片进行问答。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
开源书:PyTorch深度学习起步
专知会员服务
50+阅读 · 2019年10月11日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
VizWiz数据集:用计算机视觉回答盲人的问题
论文浅尝 | Question Answering over Freebase
开放知识图谱
18+阅读 · 2018年1月9日
Generating Rationales in Visual Question Answering
Arxiv
5+阅读 · 2020年4月4日
CoQA: A Conversational Question Answering Challenge
Arxiv
7+阅读 · 2018年8月21日
Arxiv
5+阅读 · 2018年3月16日
Arxiv
6+阅读 · 2018年2月8日
Arxiv
9+阅读 · 2016年10月27日
VIP会员
相关VIP内容
开源书:PyTorch深度学习起步
专知会员服务
50+阅读 · 2019年10月11日
相关资讯
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
VizWiz数据集:用计算机视觉回答盲人的问题
论文浅尝 | Question Answering over Freebase
开放知识图谱
18+阅读 · 2018年1月9日
Top
微信扫码咨询专知VIP会员