摘要: 基于视觉和语言的跨媒体问答与推理是人工智能领域的研究热点之一,其目的是基于给定的视觉内容和相关问题,模型能够返回正确的答案。随着深度学习的飞速发展及其在计算机视觉和自然语言处理领域的广泛应用,基于视觉和语言的跨媒体问答与推理也取得了较快的发展。文中首先系统地梳理了当前基于视觉和语言的跨媒体问答与推理的相关工作,具体介绍了基于图像的视觉问答与推理、基于视频的视觉问答与推理以及基于视觉常识推理模型与算法的研究进展,并将基于图像的视觉问答与推理细分为基于多模态融合、基于注意力机制和基于推理3类,将基于视觉常识推理细分为基于推理和基于预训练2类;然后总结了目前常用的问答与推理数据集,以及代表性的问答与推理模型在这些数据集上的实验结果;最后展望了基于视觉和语言的跨媒体问答与推理的未来发展方向。

http://www.jsjkx.com/CN/10.11896/jsjkx.201100176

成为VIP会员查看完整内容
32

相关内容

专知会员服务
70+阅读 · 2021年3月29日
跨媒体分析与推理技术研究综述
专知会员服务
70+阅读 · 2021年3月11日
专知会员服务
63+阅读 · 2021年3月9日
专知会员服务
32+阅读 · 2021年2月17日
专知会员服务
66+阅读 · 2020年12月24日
专知会员服务
46+阅读 · 2020年12月4日
多模态视觉语言表征学习研究综述
专知会员服务
192+阅读 · 2020年12月3日
稀缺资源语言神经网络机器翻译研究综述
专知会员服务
27+阅读 · 2020年12月2日
零样本图像分类综述 : 十年进展
专知会员服务
128+阅读 · 2019年11月16日
图像修复研究进展综述
专知
19+阅读 · 2021年3月9日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
基于深度学习的多标签生成研究进展
专知
4+阅读 · 2020年4月25日
多模态深度学习综述,18页pdf
专知
48+阅读 · 2020年3月29日
基于深度学习的NLP 32页最新进展综述,190篇参考文献
人工智能学家
27+阅读 · 2018年12月4日
【优青论文】视觉问答技术研究
计算机研究与发展
13+阅读 · 2018年9月21日
VALSE2017系列之七:视觉与语言领域年度进展概述
深度学习大讲堂
9+阅读 · 2017年7月11日
Arxiv
8+阅读 · 2021年2月1日
Arxiv
18+阅读 · 2020年10月9日
Incremental Reading for Question Answering
Arxiv
5+阅读 · 2019年1月15日
Knowledge Based Machine Reading Comprehension
Arxiv
4+阅读 · 2018年9月12日
VIP会员
相关VIP内容
专知会员服务
70+阅读 · 2021年3月29日
跨媒体分析与推理技术研究综述
专知会员服务
70+阅读 · 2021年3月11日
专知会员服务
63+阅读 · 2021年3月9日
专知会员服务
32+阅读 · 2021年2月17日
专知会员服务
66+阅读 · 2020年12月24日
专知会员服务
46+阅读 · 2020年12月4日
多模态视觉语言表征学习研究综述
专知会员服务
192+阅读 · 2020年12月3日
稀缺资源语言神经网络机器翻译研究综述
专知会员服务
27+阅读 · 2020年12月2日
零样本图像分类综述 : 十年进展
专知会员服务
128+阅读 · 2019年11月16日
相关资讯
图像修复研究进展综述
专知
19+阅读 · 2021年3月9日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
基于深度学习的多标签生成研究进展
专知
4+阅读 · 2020年4月25日
多模态深度学习综述,18页pdf
专知
48+阅读 · 2020年3月29日
基于深度学习的NLP 32页最新进展综述,190篇参考文献
人工智能学家
27+阅读 · 2018年12月4日
【优青论文】视觉问答技术研究
计算机研究与发展
13+阅读 · 2018年9月21日
VALSE2017系列之七:视觉与语言领域年度进展概述
深度学习大讲堂
9+阅读 · 2017年7月11日
微信扫码咨询专知VIP会员