Most of the existing works on human activity analysis focus on recognition or early recognition of the activity labels from complete or partial observations. Similarly, almost all of the existing video captioning approaches focus on the observed events in videos. Predicting the labels and the captions of future activities where no frames of the predicted activities have been observed is a challenging problem, with important applications that require anticipatory response. In this work, we propose a system that can infer the labels and the captions of a sequence of future activities. Our proposed network for label prediction of a future activity sequence has three branches where the first branch takes visual features from the objects present in the scene, the second branch takes observed sequential activity features, and the third branch captures the last observed activity features. The predicted labels and the observed scene context are then mapped to meaningful captions using a sequence-to-sequence learning-based method. Experiments on four challenging activity analysis datasets and a video description dataset demonstrate that our label prediction approach achieves comparable performance with the state-of-the-arts and our captioning framework outperform the state-of-the-arts.


翻译:人类活动分析的现有大部分工作都侧重于从完整或部分观测中确认或早期确认活动标签。同样,几乎所有现有的视频字幕方法都侧重于视频中观察到的事件。预测未观察到预计活动框架的未来活动的标签和说明是一个具有挑战性的问题,重要的应用需要预先作出反应。在这项工作中,我们提议了一个系统,可以推断标签和未来活动顺序的字幕。我们提议的今后活动序列的标签预测网络有三个分支,第一个分支从现场的物体中取得视觉特征,第二个分支有观察到的连续活动特征,第三个分支捕捉最后观察到的活动特征。预测标签和所观察到的场景背景随后用顺序到顺序的学习方法绘制为有意义的说明。对四个具有挑战性的活动分析数据集和视频描述数据集的实验表明,我们的标签预测方法取得了与现状和我们的标题框架相近于状态的类似性效果。

0
下载
关闭预览

相关内容

专知会员服务
21+阅读 · 2021年7月5日
专知会员服务
31+阅读 · 2021年6月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
计算机 | 入门级EI会议ICVRIS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年6月24日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【推荐】直接未来预测:增强学习监督学习
机器学习研究会
6+阅读 · 2017年11月24日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
ActivityNet Challenge 2017 冠军方案分享
极市平台
4+阅读 · 2017年7月25日
Arxiv
6+阅读 · 2019年4月4日
Video-to-Video Synthesis
Arxiv
9+阅读 · 2018年8月20日
VIP会员
相关资讯
计算机 | 入门级EI会议ICVRIS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年6月24日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【推荐】直接未来预测:增强学习监督学习
机器学习研究会
6+阅读 · 2017年11月24日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
ActivityNet Challenge 2017 冠军方案分享
极市平台
4+阅读 · 2017年7月25日
Top
微信扫码咨询专知VIP会员