In this report, our approach to tackling the task of ActivityNet 2018 Kinetics-600 challenge is described in detail. Though spatial-temporal modelling methods, which adopt either such end-to-end framework as I3D \cite{i3d} or two-stage frameworks (i.e., CNN+RNN), have been proposed in existing state-of-the-arts for this task, video modelling is far from being well solved. In this challenge, we propose spatial-temporal network (StNet) for better joint spatial-temporal modelling and comprehensively video understanding. Besides, given that multi-modal information is contained in video source, we manage to integrate both early-fusion and later-fusion strategy of multi-modal information via our proposed improved temporal Xception network (iTXN) for video understanding. Our StNet RGB single model achieves 78.99\% top-1 precision in the Kinetics-600 validation set and that of our improved temporal Xception network which integrates RGB, flow and audio modalities is up to 82.35\%. After model ensemble, we achieve top-1 precision as high as 85.0\% on the validation set and rank No.1 among all submissions.


翻译:本报告详细介绍了我们应对2018年活动网动因-600号挑战的方法。虽然在目前关于这项任务的最新条款中已经提出了处理2018年动因-600号活动网任务的方法。尽管空间-时际建模方法(即I3D\cite{i3d}或两阶段框架(即CNN+RNNNN),但目前为这项任务提出的现有阶段框架(即CNN+RNN)已经采纳了I3D\cite{i3d}或两个阶段的端对端框架(即CNN+RNNN),但视频建模远未完全解决。在这项挑战中,我们提出了空间-时际网络(StNet),以更好地联合空间-时空建模和全面视频理解。此外,鉴于多模式信息包含在视频源中,我们设法通过拟议改进的时际Xceptionion网络(iTXXN)将多式信息的早期集成和后集成战略集成,作为高校准文件,我们作为高校定的一级和高校准。

0
下载
关闭预览

相关内容

抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
49+阅读 · 2020年2月26日
【快讯】CVPR2020结果出炉,1470篇上榜, 你的paper中了吗?
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
28+阅读 · 2019年10月18日
计算机 | 入门级EI会议ICVRIS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年6月24日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
人工智能 | 国际会议信息6条
Call4Papers
4+阅读 · 2019年1月4日
计算机视觉领域顶会CVPR 2018 接受论文列表
计算机类 | 国际会议信息7条
Call4Papers
3+阅读 · 2017年11月17日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
20+阅读 · 2020年6月8日
VIP会员
相关VIP内容
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
49+阅读 · 2020年2月26日
【快讯】CVPR2020结果出炉,1470篇上榜, 你的paper中了吗?
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
28+阅读 · 2019年10月18日
相关资讯
计算机 | 入门级EI会议ICVRIS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年6月24日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
人工智能 | 国际会议信息6条
Call4Papers
4+阅读 · 2019年1月4日
计算机视觉领域顶会CVPR 2018 接受论文列表
计算机类 | 国际会议信息7条
Call4Papers
3+阅读 · 2017年11月17日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员