基于视觉和语言的跨媒体问答与推理研究综述 - 专知VIP

会员服务 ·

9

跨媒体问答与推理 ·

2021 年 3 月 17 日

基于视觉和语言的跨媒体问答与推理研究综述

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

摘要：基于视觉和语言的跨媒体问答与推理是人工智能领域的研究热点之一,其目的是基于给定的视觉内容和相关问题,模型能够返回正确的答案。随着深度学习的飞速发展及其在计算机视觉和自然语言处理领域的广泛应用,基于视觉和语言的跨媒体问答与推理也取得了较快的发展。文中首先系统地梳理了当前基于视觉和语言的跨媒体问答与推理的相关工作,具体介绍了基于图像的视觉问答与推理、基于视频的视觉问答与推理以及基于视觉常识推理模型与算法的研究进展,并将基于图像的视觉问答与推理细分为基于多模态融合、基于注意力机制和基于推理3类,将基于视觉常识推理细分为基于推理和基于预训练2类;然后总结了目前常用的问答与推理数据集,以及代表性的问答与推理模型在这些数据集上的实验结果;最后展望了基于视觉和语言的跨媒体问答与推理的未来发展方向。

http://www.jsjkx.com/CN/10.11896/jsjkx.201100176

成为VIP会员查看完整内容

32

相关内容

图像描述生成研究进展

专知会员服务

70+阅读 · 2021年3月29日

跨媒体分析与推理技术研究综述

跨媒体分析与推理技术研究综述

专知会员服务

70+阅读 · 2021年3月11日

图像修复研究进展综述

专知会员服务

63+阅读 · 2021年3月9日

流体运动估计光流算法研究综述

专知会员服务

32+阅读 · 2021年2月17日

从视觉到文本: 图像描述生成的研究进展综述

专知会员服务

67+阅读 · 2020年12月24日

基于深度学习的图像补全算法综述

专知会员服务

46+阅读 · 2020年12月4日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知会员服务

194+阅读 · 2020年12月3日

稀缺资源语言神经网络机器翻译研究综述

稀缺资源语言神经网络机器翻译研究综述

专知会员服务

27+阅读 · 2020年12月2日

【复旦大学】从视觉到文本: 图像描述生成的研究进展综述

专知会员服务

80+阅读 · 2020年9月10日

零样本图像分类综述 : 十年进展

零样本图像分类综述 : 十年进展

专知会员服务

128+阅读 · 2019年11月16日

图像修复研究进展综述

图像修复研究进展综述

专知

20+阅读 · 2021年3月9日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

论文浅尝 - IJCAI2020 | Mucko：基于事实的多层跨模态知识推理视觉问答

论文浅尝 - IJCAI2020 | Mucko：基于事实的多层跨模态知识推理视觉问答

开放知识图谱

14+阅读 · 2020年9月24日

基于深度学习的多标签生成研究进展

基于深度学习的多标签生成研究进展

专知

4+阅读 · 2020年4月25日

多模态深度学习综述，18页pdf

多模态深度学习综述，18页pdf

专知

50+阅读 · 2020年3月29日

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知

38+阅读 · 2020年3月5日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

基于深度学习的NLP 32页最新进展综述，190篇参考文献

基于深度学习的NLP 32页最新进展综述，190篇参考文献

人工智能学家

28+阅读 · 2018年12月4日

【优青论文】视觉问答技术研究

【优青论文】视觉问答技术研究

计算机研究与发展

13+阅读 · 2018年9月21日

VALSE2017系列之七：视觉与语言领域年度进展概述

VALSE2017系列之七：视觉与语言领域年度进展概述

深度学习大讲堂

9+阅读 · 2017年7月11日

AdaMML: Adaptive Multi-Modal Learning for Efficient Video Recognition

Arxiv

0+阅读 · 2021年5月11日

Semantic Grouping Network for Video Captioning

Arxiv

8+阅读 · 2021年2月1日

Benchmarking Knowledge-Enhanced Commonsense Question Answering via Knowledge-to-Text Transformation

Benchmarking Knowledge-Enhanced Commonsense Question Answering via Knowledge-to-Text Transformation

Arxiv

8+阅读 · 2021年1月5日

A Survey of Knowledge-Enhanced Text Generation

Arxiv

18+阅读 · 2020年10月9日

WaveTTS: Tacotron-based TTS with Joint Time-Frequency Domain Loss

WaveTTS: Tacotron-based TTS with Joint Time-Frequency Domain Loss

Arxiv

3+阅读 · 2020年4月6日

Blockchain for Future Smart Grid: A Comprehensive Survey

Blockchain for Future Smart Grid: A Comprehensive Survey

Arxiv

21+阅读 · 2019年11月8日

Incremental Reading for Question Answering

Incremental Reading for Question Answering

Arxiv

5+阅读 · 2019年1月15日

Knowledge Based Machine Reading Comprehension

Knowledge Based Machine Reading Comprehension

Arxiv

4+阅读 · 2018年9月12日

From Knowledge Graph Embedding to Ontology Embedding: Region Based Representations of Relational Structures

Arxiv

10+阅读 · 2018年5月26日

VizWiz Grand Challenge: Answering Visual Questions from Blind People

Arxiv

9+阅读 · 2018年2月22日

VIP会员

相关主题

跨媒体问答与推理

相关VIP内容

图像描述生成研究进展

专知会员服务

70+阅读 · 2021年3月29日

跨媒体分析与推理技术研究综述

跨媒体分析与推理技术研究综述

专知会员服务

70+阅读 · 2021年3月11日

图像修复研究进展综述

专知会员服务

63+阅读 · 2021年3月9日

流体运动估计光流算法研究综述

专知会员服务

32+阅读 · 2021年2月17日

从视觉到文本: 图像描述生成的研究进展综述

专知会员服务

67+阅读 · 2020年12月24日

基于深度学习的图像补全算法综述

专知会员服务

46+阅读 · 2020年12月4日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知会员服务

194+阅读 · 2020年12月3日

稀缺资源语言神经网络机器翻译研究综述

稀缺资源语言神经网络机器翻译研究综述

专知会员服务

27+阅读 · 2020年12月2日

【复旦大学】从视觉到文本: 图像描述生成的研究进展综述

专知会员服务

80+阅读 · 2020年9月10日

零样本图像分类综述 : 十年进展

零样本图像分类综述 : 十年进展

专知会员服务

128+阅读 · 2019年11月16日

热门VIP内容

开通专知VIP会员享更多权益服务

《物联网（IoT）中的无人机通信高效控制》135页

《在GNSS信号降级环境中利用共识实现无人机集群稳健协调》

中程单向攻击无人机的战略意义：俄乌战争启示

《面向无人机集群的避障动态传感器覆盖算法》最新38页

相关资讯

图像修复研究进展综述

图像修复研究进展综述

专知

20+阅读 · 2021年3月9日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

论文浅尝 - IJCAI2020 | Mucko：基于事实的多层跨模态知识推理视觉问答

论文浅尝 - IJCAI2020 | Mucko：基于事实的多层跨模态知识推理视觉问答

开放知识图谱

14+阅读 · 2020年9月24日

基于深度学习的多标签生成研究进展

基于深度学习的多标签生成研究进展

专知

4+阅读 · 2020年4月25日

多模态深度学习综述，18页pdf

多模态深度学习综述，18页pdf

专知

50+阅读 · 2020年3月29日

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知

38+阅读 · 2020年3月5日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

基于深度学习的NLP 32页最新进展综述，190篇参考文献

基于深度学习的NLP 32页最新进展综述，190篇参考文献

人工智能学家

28+阅读 · 2018年12月4日

【优青论文】视觉问答技术研究

【优青论文】视觉问答技术研究

计算机研究与发展

13+阅读 · 2018年9月21日

VALSE2017系列之七：视觉与语言领域年度进展概述

VALSE2017系列之七：视觉与语言领域年度进展概述

深度学习大讲堂

9+阅读 · 2017年7月11日

相关论文

AdaMML: Adaptive Multi-Modal Learning for Efficient Video Recognition

Arxiv

0+阅读 · 2021年5月11日

Semantic Grouping Network for Video Captioning

Arxiv

8+阅读 · 2021年2月1日

Benchmarking Knowledge-Enhanced Commonsense Question Answering via Knowledge-to-Text Transformation

Benchmarking Knowledge-Enhanced Commonsense Question Answering via Knowledge-to-Text Transformation

Arxiv

8+阅读 · 2021年1月5日

A Survey of Knowledge-Enhanced Text Generation

Arxiv

18+阅读 · 2020年10月9日

WaveTTS: Tacotron-based TTS with Joint Time-Frequency Domain Loss

WaveTTS: Tacotron-based TTS with Joint Time-Frequency Domain Loss

Arxiv

3+阅读 · 2020年4月6日

Blockchain for Future Smart Grid: A Comprehensive Survey

Blockchain for Future Smart Grid: A Comprehensive Survey

Arxiv

21+阅读 · 2019年11月8日

Incremental Reading for Question Answering

Incremental Reading for Question Answering

Arxiv

5+阅读 · 2019年1月15日

Knowledge Based Machine Reading Comprehension

Knowledge Based Machine Reading Comprehension

Arxiv

4+阅读 · 2018年9月12日

From Knowledge Graph Embedding to Ontology Embedding: Region Based Representations of Relational Structures

Arxiv

10+阅读 · 2018年5月26日

VizWiz Grand Challenge: Answering Visual Questions from Blind People

Arxiv

9+阅读 · 2018年2月22日

微信扫码咨询专知VIP会员