Conventional fake video detection methods outputs a possibility value or a suspected mask of tampering images. However, such unexplainable results cannot be used as convincing evidence. So it is better to trace the sources of fake videos. The traditional hashing methods are used to retrieve semantic-similar images, which can't discriminate the nuances of the image. Specifically, the sources tracing compared with traditional video retrieval. It is a challenge to find the real one from similar source videos. We designed a novel loss Hash Triplet Loss to solve the problem that the videos of people are very similar: the same scene with different angles, similar scenes with the same person. We propose Vision Transformer based models named Video Tracing and Tampering Localization (VTL). In the first stage, we train the hash centers by ViTHash (VTL-T). Then, a fake video is inputted to ViTHash, which outputs a hash code. The hash code is used to retrieve the source video from hash centers. In the second stage, the source video and fake video are inputted to generator (VTL-L). Then, the suspect regions are masked to provide auxiliary information. Moreover, we constructed two datasets: DFTL and DAVIS2016-TL. Experiments on DFTL clearly show the superiority of our framework in sources tracing of similar videos. In particular, the VTL also achieved comparable performance with state-of-the-art methods on DAVIS2016-TL. Our source code and datasets have been released on GitHub: \url{https://github.com/lajlksdf/vtl}.


翻译:常规的假视频检测方法输出一种可能性值或被怀疑的篡改图像掩码。 但是, 无法用这种无法解释的结果作为令人信服的证据。 因此, 我们最好去追踪假视频的来源。 传统的散列方法用来检索语义相似的图像, 这无法区分图像的细微差别。 具体地说, 与传统视频检索相比, 追查来源与传统视频检索。 从类似来源视频中找到真实的源代码是一个挑战 。 我们设计了一个新颖的丢失 Hash Triplet Loss 来解决人们的视频非常相似的问题 : 同一场景, 与同一个人相似的场景 。 因此, 我们建议基于愿景的变换模型, 名为 Videove Transport and Tappering Concilation (VTL) 。 在第一阶段, 我们用 VTLL-L 格式构建了一个假的图像中心 。 在第二个阶段, 我们的图像源代码和假的版本中, 我们的DFS- tavi 提供了可比较的 DL 数据 。 在 DVL 框架中, 我们的模型中, 提供了可比较的 DVL 和 DFT 的原始数据 。

0
下载
关闭预览

相关内容

深度对抗视觉生成综述
专知会员服务
31+阅读 · 2021年12月29日
【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
37+阅读 · 2021年4月9日
【Manning新书】现代Java实战,592页pdf
专知会员服务
98+阅读 · 2020年5月22日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
91+阅读 · 2019年10月16日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
30+阅读 · 2019年10月16日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
已删除
将门创投
4+阅读 · 2017年11月1日
O-ViT: Orthogonal Vision Transformer
Arxiv
0+阅读 · 2022年2月16日
A survey on deep hashing for image retrieval
Arxiv
14+阅读 · 2020年6月10日
Video-to-Video Synthesis
Arxiv
9+阅读 · 2018年8月20日
Arxiv
3+阅读 · 2012年11月20日
VIP会员
相关VIP内容
深度对抗视觉生成综述
专知会员服务
31+阅读 · 2021年12月29日
【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
37+阅读 · 2021年4月9日
【Manning新书】现代Java实战,592页pdf
专知会员服务
98+阅读 · 2020年5月22日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
91+阅读 · 2019年10月16日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
30+阅读 · 2019年10月16日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Top
微信扫码咨询专知VIP会员