自我挖掘:视频问答中对样本进行孪生采样和推理

Learning from Inside: Self-driven Siamese Sampling and Reasoning for Video Question Answering

论文摘要:视频问答任务需要根据语言线索的组合语义,获取并使用视频中的视觉信号的时域和空域特征,从而生成回答。现有的一些工作从视频中提取一般的视觉信息以及运动特征来表示视频内容,并设计了不同的注意力机制来整合这些特征。这些方法注重于如何更好地理解视频的整体内容,但这样容易忽略了视频段中的细节。也有一些研究人员探究了如何通过对视频的视觉和语言信息进行语义层面上的特征对齐。但是这些工作都忽略了同一个视频中的上下文之间的关联。为了解决上诉问题,我们提出了此基于自驱动孪生采样和推理的框架,并将其用于提取相同视频的不同视频段中的上下文语义信息,用于增强网络的学习效果。本方法在 5 个公开的数据集上面实现了最优的效果。

https://papers.nips.cc/paper/2021/file/dea184826614d3f4c608731389ed0c74-Paper.pdf

成为VIP会员查看完整内容
5

相关内容

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习
专知会员服务
49+阅读 · 2021年12月20日
【AAAI2022】基于对比时空前置学习的视频自监督表示
专知会员服务
20+阅读 · 2021年12月19日
【NeurIPS2021】用于视频分割的密集无监督学习
专知会员服务
15+阅读 · 2021年11月14日
专知会员服务
8+阅读 · 2021年10月4日
专知会员服务
27+阅读 · 2021年8月13日
【AAAI2021】层次推理图神经网络
专知会员服务
70+阅读 · 2020年12月27日
CVPR 2020 | 细粒度文本视频跨模态检索
AI科技评论
17+阅读 · 2020年3月24日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
22+阅读 · 2019年8月30日
论文浅尝 | 端到端神经视觉问答之上的显式推理
开放知识图谱
7+阅读 · 2018年6月28日
目标跟踪的一篇论文及代码视频
CreateAMind
8+阅读 · 2017年9月7日
关系推理:基于表示学习和语义要素
计算机研究与发展
18+阅读 · 2017年8月22日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
CoQA: A Conversational Question Answering Challenge
Arxiv
7+阅读 · 2018年8月21日
Arxiv
3+阅读 · 2018年3月5日
Arxiv
6+阅读 · 2018年1月29日
VIP会员
相关VIP内容
【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习
专知会员服务
49+阅读 · 2021年12月20日
【AAAI2022】基于对比时空前置学习的视频自监督表示
专知会员服务
20+阅读 · 2021年12月19日
【NeurIPS2021】用于视频分割的密集无监督学习
专知会员服务
15+阅读 · 2021年11月14日
专知会员服务
8+阅读 · 2021年10月4日
专知会员服务
27+阅读 · 2021年8月13日
【AAAI2021】层次推理图神经网络
专知会员服务
70+阅读 · 2020年12月27日
相关资讯
CVPR 2020 | 细粒度文本视频跨模态检索
AI科技评论
17+阅读 · 2020年3月24日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
22+阅读 · 2019年8月30日
论文浅尝 | 端到端神经视觉问答之上的显式推理
开放知识图谱
7+阅读 · 2018年6月28日
目标跟踪的一篇论文及代码视频
CreateAMind
8+阅读 · 2017年9月7日
关系推理:基于表示学习和语义要素
计算机研究与发展
18+阅读 · 2017年8月22日
微信扫码咨询专知VIP会员