视频域泛化旨在通过在源域中训练来学习对未见目标域具有普适性的视频分类模型。视频域泛化的一个关键挑战是在识别目标视频时防御对从源域中提取的特定域线索的过度依赖。为此,我们提议感知视频中的多种时空线索,旨在除特定域线索外发现潜在的域不变线索。我们贡献了一个名为时空多样化网络(STDN)的新模型,它从视频数据的空间和时间维度提高了多样性。首先,我们的STDN提议通过空间分组发现单个帧内的各种类型的空间线索。然后,我们的STDN提议通过时空关系建模在多个时空尺度上明确地建模视频内容之间的时空依赖性。对三种不同类型的基准的大量实验证明了我们方法的有效性和多功能性。 https://arxiv.org/pdf/2310.17942.pdf