Untrimmed videos on social media or those captured by robots and surveillance cameras are of varied aspect ratios. However, 3D CNNs usually require as input a square-shaped video, whose spatial dimension is smaller than the original. Random- or center-cropping may leave out the video's subject altogether. To address this, we propose an unsupervised video cropping approach by shaping this as a retargeting and video-to-video synthesis problem. The synthesized video maintains a 1:1 aspect ratio, is smaller in size and is targeted at video-subject(s) throughout the entire duration. First, action localization is performed on each frame by identifying patches with homogeneous motion patterns. Thus, a single salient patch is pinpointed per frame. But to avoid viewpoint jitters and flickering, any inter-frame scale or position changes among the patches should be performed gradually over time. This issue is addressed with a polyBezier fitting in 3D space that passes through some chosen pivot timestamps and whose shape is influenced by the in-between control timestamps. To corroborate the effectiveness of the proposed method, we evaluate the video classification task by comparing our dynamic cropping technique with random cropping on three benchmark datasets, viz. UCF-101, HMDB-51 and ActivityNet v1.3. The clip and top-1 accuracy for video classification after our cropping, outperform 3D CNN performances for same-sized random-crop inputs, also surpassing some larger random-crop sizes.
翻译:社交媒体或由机器人和监视摄像机拍摄的未加剪辑的视频具有不同的侧面比例。 然而, 3D CNN 通常要求输入一个方形视频, 其空间尺寸小于原版的方形视频。 随机或中剪辑可能会完全排除视频主题。 为了解决这个问题, 我们建议采用一种不受监督的视频裁剪方法, 将其塑造成一个重新定位和视频到视频合成问题。 合成视频保持1: 1 的侧面比例, 其尺寸较小, 在整个期间针对视频对象。 首先, 在每个框中进行行动本地化, 确定具有同质运动模式的补丁。 因此, 每个框中都会定位一个单一突出的补丁。 但是, 要避免看到亮亮和闪亮, 任何跨框架规模或补丁间位置的改变都应该逐渐进行。 这一问题在3D 空间中安装了一个多贝塞尔装置, 通过某些选定的活性节时间长度, 且其形状受控制时间间隔影响。 首先, 通过校验拟议方法的有效性,, 我们还评估一个更精确的 RCRM 3 样 3, 我们的SB 的模型, 的模型 的模型, 比较我们 3 的模型 的 的模型 3 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 和 的 的 的 的 的 的 的 的 的 的 的 的 的 的 和 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的