We explore spatiotemporal data augmentation using video foundation models to diversify both camera viewpoints and scene dynamics. Unlike existing approaches based on simple geometric transforms or appearance perturbations, our method leverages off-the-shelf video diffusion models to generate realistic 3D spatial and temporal variations from a given image dataset. Incorporating these synthesized video clips as supplemental training data yields consistent performance gains in low-data settings, such as UAV-captured imagery where annotations are scarce. Beyond empirical improvements, we provide practical guidelines for (i) choosing an appropriate spatiotemporal generative setup, (ii) transferring annotations to synthetic frames, and (iii) addressing disocclusion - regions newly revealed and unlabeled in generated views. Experiments on COCO subsets and UAV-captured datasets show that, when applied judiciously, spatiotemporal augmentation broadens the data distribution along axes underrepresented by traditional and prior generative methods, offering an effective lever for improving model performance in data-scarce regimes.


翻译:本研究探索利用视频基础模型进行时空数据增强,以多样化相机视角与场景动态。与现有基于简单几何变换或外观扰动的方法不同,本方法利用现成的视频扩散模型,从给定图像数据集中生成逼真的三维空间与时间变化。将这些合成的视频片段作为补充训练数据纳入,可在低数据场景(如标注稀缺的无人机捕获图像)中带来一致的性能提升。除实证改进外,我们提供了实用指南,包括:(i)选择合适的时空生成设置,(ii)将标注迁移至合成帧,以及(iii)处理遮挡消解——即生成视图中新显露且未标注的区域。在COCO子集和无人机捕获数据集上的实验表明,若审慎应用,时空数据增强能沿传统及先前生成方法代表性不足的维度拓宽数据分布,为在数据稀缺场景中提升模型性能提供有效杠杆。

0
下载
关闭预览

相关内容

【CVPR 2021】变换器跟踪TransT: Transformer Tracking
专知会员服务
22+阅读 · 2021年4月20日
Deep Image Prior——图像恢复入门
中国人工智能学会
15+阅读 · 2019年2月16日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 12月13日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员