Video question answering (VideoQA) is challenging given its multimodal combination of visual understanding and natural language understanding. While existing approaches seldom leverage the appearance-motion information in the video at multiple temporal scales, the interaction between the question and the visual information for textual semantics extraction is frequently ignored. Targeting these issues, this paper proposes a novel Temporal Pyramid Transformer (TPT) model with multimodal interaction for VideoQA. The TPT model comprises two modules, namely Question-specific Transformer (QT) and Visual Inference (VI). Given the temporal pyramid constructed from a video, QT builds the question semantics from the coarse-to-fine multimodal co-occurrence between each word and the visual content. Under the guidance of such question-specific semantics, VI infers the visual clues from the local-to-global multi-level interactions between the question and the video. Within each module, we introduce a multimodal attention mechanism to aid the extraction of question-video interactions, with residual connections adopted for the information passing across different levels. Through extensive experiments on three VideoQA datasets, we demonstrate better performances of the proposed method in comparison with the state-of-the-arts.


翻译:视频解答(VideoQA)因其视觉理解和自然语言理解的多式组合而具有挑战性。虽然现有方法很少在多个时间尺度上利用视频中的外观感动信息,但问题与文字语义提取的视觉信息之间的相互作用经常被忽略。针对这些问题,本文建议采用新颖的Temal Pyramid变异器模式,与视频QA的多式互动。TPT模式由两个模块组成,即特定问题变异器(QT)和视觉感知(VI)。鉴于从视频中构建的时间金字塔,QT从每个单词和视觉内容之间的粗略至软形多式混合中构建问题语义。在这类特定问题语义学的指导下,我们从问题与视频的当地到全球多层次互动中推导出视觉线索。在每一个模块中,我们引入了一种多式关注机制,帮助提取问题视频互动,对信息在不同级别上传递的剩余连接。通过对三个视频QA数据集进行广泛的实验,我们用拟议的国家方法更好地展示了业绩。

0
下载
关闭预览

相关内容

专知会员服务
32+阅读 · 2021年10月9日
专知会员服务
29+阅读 · 2021年7月30日
多标签学习的新趋势(2020 Survey)
专知会员服务
41+阅读 · 2020年12月6日
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
28+阅读 · 2019年10月18日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
跨越注意力:Cross-Attention
我爱读PAMI
172+阅读 · 2018年6月2日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
Arxiv
0+阅读 · 2021年10月28日
VIP会员
Top
微信扫码咨询专知VIP会员