Untrimmed videos on social media or those captured by robots and surveillance cameras are of varied aspect ratios. However, 3D CNNs require a square-shaped video whose spatial dimension is smaller than the original one. Random or center-cropping techniques in use may leave out the video's subject altogether. To address this, we propose an unsupervised video cropping approach by shaping this as a retargeting and video-to-video synthesis problem. The synthesized video maintains 1:1 aspect ratio, smaller in size and is targeted at the video-subject throughout the whole duration. First, action localization on the individual frames is performed by identifying patches with homogeneous motion patterns and a single salient patch is pin-pointed. To avoid viewpoint jitters and flickering artifacts, any inter-frame scale or position changes among the patches is performed gradually over time. This issue is addressed with a poly-Bezier fitting in 3D space that passes through some chosen pivot timestamps and its shape is influenced by in-between control timestamps. To corroborate the effectiveness of the proposed method, we evaluate the video classification task by comparing our dynamic cropping with static random on three benchmark datasets: UCF-101, HMDB-51 and ActivityNet v1.3. The clip accuracy and top-1 accuracy for video classification after our cropping, outperform 3D CNN performances for same-sized inputs with random crop; sometimes even surpassing larger random crop sizes.


翻译:社交媒体或由机器人和监控摄像机拍摄的未剪辑视频在社交媒体或由机器人和监控摄像摄像机拍摄的视频中,其比例各异。然而,3DCNN需要一张平方形视频,其空间范围小于原来的空间范围。正在使用的随机或中裁剪技术可能会完全忽略视频主题。为了解决这个问题,我们建议采用一种不受监督的视频裁剪方法,将它塑造成一个重新定位和视频到视频到视频的合成问题。合成视频在整个期间保持1:1宽比,规模较小,并以视频对象为目标。首先,单个框架的行动本地化工作是通过识别具有同质运动模式和单一突出的偏重点点的片段段,来进行。为避免观看吉特和闪亮的作品,任何跨框架规模或补丁间位置的变化都会随着时间的推移而进行。 这一问题在3D空间的多贝塞尔安装一个通过某些选定的微分调时网,其形状会受到控制时间戳的影响。为了证实拟议方法的有效性,我们评估视频分类任务的任意范围,通过对比我们动态的作物分类之后的准确性动态作物分类,并对比我们的固定的作物分类。

0
下载
关闭预览

相关内容

​【CVPR 2021】半监督视频目标分割新算法,实现SOTA性能
专知会员服务
12+阅读 · 2021年4月26日
专知会员服务
20+阅读 · 2021年4月2日
【AAAI2021】时间关系建模与自监督的动作分割
专知会员服务
36+阅读 · 2021年1月24日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
专知会员服务
109+阅读 · 2020年3月12日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
CVPR 2019 | 34篇 CVPR 2019 论文实现代码
AI科技评论
21+阅读 · 2019年6月23日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
STRCF for Visual Object Tracking
统计学习与视觉计算组
14+阅读 · 2018年5月29日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
SlowFast Networks for Video Recognition
Arxiv
19+阅读 · 2018年12月10日
Video-to-Video Synthesis
Arxiv
9+阅读 · 2018年8月20日
VIP会员
相关VIP内容
​【CVPR 2021】半监督视频目标分割新算法,实现SOTA性能
专知会员服务
12+阅读 · 2021年4月26日
专知会员服务
20+阅读 · 2021年4月2日
【AAAI2021】时间关系建模与自监督的动作分割
专知会员服务
36+阅读 · 2021年1月24日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
专知会员服务
109+阅读 · 2020年3月12日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
相关资讯
CVPR 2019 | 34篇 CVPR 2019 论文实现代码
AI科技评论
21+阅读 · 2019年6月23日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
STRCF for Visual Object Tracking
统计学习与视觉计算组
14+阅读 · 2018年5月29日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
Top
微信扫码咨询专知VIP会员