使用图像描述中的语义信息解答视觉问题 (Visual Question Answering Using Semantic Information from Image Descriptions) - 专知论文

会员服务 ·

0

视觉问答 · INFORMS · 自动问答 · 知识提取 · Less ·

2021 年 4 月 3 日

Visual Question Answering Using Semantic Information from Image Descriptions

翻译：使用图像描述中的语义信息解答视觉问题

Tasmia Tasrin,Md Sultan Al Nahian,Brent Harrison

from arxiv, 6 pages, 5 figures, The 34th International FLAIRS Conference

In this work, we propose a deep neural architecture that uses an attention mechanism which utilizes region based image features, the natural language question asked, and semantic knowledge extracted from the regions of an image to produce open-ended answers for questions asked in a visual question answering (VQA) task. The combination of both region based features and region based textual information about the image bolsters a model to more accurately respond to questions and potentially do so with less required training data. We evaluate our proposed architecture on a VQA task against a strong baseline and show that our method achieves excellent results on this task.

翻译：在这项工作中,我们提出一个深层神经结构,利用一种关注机制,利用区域图像特征、自然语言问题和从图像区域提取的语义知识,为视觉问题回答(VQA)任务中提出的问题提供开放式答案。基于区域特征和基于区域图像的文字信息相结合,支持了更准确地回答问题的模式,并有可能用较少需要的培训数据这样做。我们根据强有力的基线评估了我们关于VQA任务的拟议架构,并表明我们的方法在这项任务上取得了极佳的成果。

1

相关内容

视觉问答

视觉问答（Visual Question Answering，VQA），是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下： A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。翻译为中文：一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入，以生成一条自然语言答案作为输出。简单来说，VQA就是给定的图片进行问答。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【视频描述综述论文】Video Description: A Survey of Methods, Datasets, and Evaluation Metrics

【视频描述综述论文】Video Description: A Survey of Methods, Datasets, and Evaluation Metrics

专知会员服务

65+阅读 · 2020年5月12日

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

专知会员服务

96+阅读 · 2020年3月12日

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

专知会员服务

92+阅读 · 2019年12月22日

ExBert — 可视化分析Transformer学到的表示

ExBert — 可视化分析Transformer学到的表示

专知会员服务

32+阅读 · 2019年10月16日

【CVPR 2019|workshop】视觉问答和对话，Visual Question Answering and Dialog，斯坦福大学|Christopher Manning，Google DeepMind|Karl Moritz Hermann

【CVPR 2019|workshop】视觉问答和对话，Visual Question Answering and Dialog，斯坦福大学|Christopher Manning，Google DeepMind|Karl Moritz Hermann

专知会员服务

18+阅读 · 2019年6月17日

论文小综 | Using External Knowledge on VQA

论文小综 | Using External Knowledge on VQA

开放知识图谱

10+阅读 · 2020年10月18日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

计算机视觉领域顶会CVPR 2018 接受论文列表

计算机视觉领域顶会CVPR 2018 接受论文列表

专知

7+阅读 · 2018年5月26日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

Capsule Networks解析

Capsule Networks解析

机器学习研究会

11+阅读 · 2017年11月12日

Evaluating Multimodal Representations on Visual Semantic Textual Similarity

Evaluating Multimodal Representations on Visual Semantic Textual Similarity

Arxiv

6+阅读 · 2020年4月4日

Visual Question Answering as Reading Comprehension

Arxiv

3+阅读 · 2018年11月29日

Joint Image Captioning and Question Answering

Arxiv

6+阅读 · 2018年5月22日

Question Type Guided Attention in Visual Question Answering

Arxiv

5+阅读 · 2018年4月6日

Improved Fusion of Visual and Language Representations by Dense Symmetric Co-Attention for Visual Question Answering

Arxiv

4+阅读 · 2018年4月3日

VIP会员

文章信息

相关主题

相关VIP内容

【视频描述综述论文】Video Description: A Survey of Methods, Datasets, and Evaluation Metrics

【视频描述综述论文】Video Description: A Survey of Methods, Datasets, and Evaluation Metrics

专知会员服务

65+阅读 · 2020年5月12日

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

专知会员服务

96+阅读 · 2020年3月12日

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

专知会员服务

92+阅读 · 2019年12月22日

ExBert — 可视化分析Transformer学到的表示

ExBert — 可视化分析Transformer学到的表示

专知会员服务

32+阅读 · 2019年10月16日

【CVPR 2019|workshop】视觉问答和对话，Visual Question Answering and Dialog，斯坦福大学|Christopher Manning，Google DeepMind|Karl Moritz Hermann

【CVPR 2019|workshop】视觉问答和对话，Visual Question Answering and Dialog，斯坦福大学|Christopher Manning，Google DeepMind|Karl Moritz Hermann

专知会员服务

18+阅读 · 2019年6月17日

热门VIP内容

开通专知VIP会员享更多权益服务

【斯坦福博士论文】数据、决策与过度依赖：构建可信人工智能的核心挑战

《多域时代中维持弹性军事训练：挑战与机遇》

【AAAI2026】专家数量何为最优？面向混合专家模型的语义专业化优化研究

自进化人工智能体的全面综述：连接基础模型与终身自主智能系统的新范式

相关资讯

论文小综 | Using External Knowledge on VQA

论文小综 | Using External Knowledge on VQA

开放知识图谱

10+阅读 · 2020年10月18日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

计算机视觉领域顶会CVPR 2018 接受论文列表

计算机视觉领域顶会CVPR 2018 接受论文列表

专知

7+阅读 · 2018年5月26日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

Capsule Networks解析

Capsule Networks解析

机器学习研究会

11+阅读 · 2017年11月12日

相关论文

Evaluating Multimodal Representations on Visual Semantic Textual Similarity

Evaluating Multimodal Representations on Visual Semantic Textual Similarity

Arxiv

6+阅读 · 2020年4月4日

Visual Question Answering as Reading Comprehension

Arxiv

3+阅读 · 2018年11月29日

Joint Image Captioning and Question Answering

Arxiv

6+阅读 · 2018年5月22日

Question Type Guided Attention in Visual Question Answering

Arxiv

5+阅读 · 2018年4月6日

Improved Fusion of Visual and Language Representations by Dense Symmetric Co-Attention for Visual Question Answering

Arxiv

4+阅读 · 2018年4月3日

微信扫码咨询专知VIP会员