Although Deep Neural Networks (DNNs) have demonstrated excellent performance, they are vulnerable to adversarial patches that introduce perceptible and localized perturbations to the input. Generating adversarial patches on images has received much attention, while adversarial patches on videos have not been well investigated. Further, decision-based attacks, where attackers only access the predicted hard labels by querying threat models, have not been well explored on video models either, even if they are practical in real-world video recognition scenes. The absence of such studies leads to a huge gap in the robustness assessment for video models. To bridge this gap, this work first explores decision-based patch attacks on video models. We analyze that the huge parameter space brought by videos and the minimal information returned by decision-based models both greatly increase the attack difficulty and query burden. To achieve a query-efficient attack, we propose a spatial-temporal differential evolution (STDE) framework. First, STDE introduces target videos as patch textures and only adds patches on keyframes that are adaptively selected by temporal difference. Second, STDE takes minimizing the patch area as the optimization objective and adopts spatialtemporal mutation and crossover to search for the global optimum without falling into the local optimum. Experiments show STDE has demonstrated state-of-the-art performance in terms of threat, efficiency and imperceptibility. Hence, STDE has the potential to be a powerful tool for evaluating the robustness of video recognition models.


翻译:尽管深度神经网络 (DNN) 表现出了卓越的性能,但它们容易受到对输入引入可感知的局部扰动的对抗补丁的攻击。生成图像上的对抗补丁已经受到了广泛的关注,但对视频上的对抗补丁进行研究还不充分。此外,在视频模型上,决策型攻击只通过查询威胁模型返回的预测硬标签来实现,但也没有得到很好的研究。这种决策型攻击在真实世界的视频识别场景中很实用,但缺乏这样的研究导致了视频模型的鲁棒性评估中的巨大差距。为了填补这一差距,本文首先探索了视频模型上的决策型补丁攻击。我们分析了视频带来的巨大参数空间和决策型模型返回的最小信息都极大地增加了攻击难度和查询负担。为了实现一个查询效率高的攻击,我们提出了一种时空差分进化 (STDE) 框架。首先,STDE 将目标视频作为补丁纹理,并只在由时差自适应选择的关键帧上增加补丁。其次,STDE 同时采用空间和时间的变异和交叉,以将最小化补丁区域作为优化目标,并搜索全局最优解以避免陷入局部最优解。实验表明,STDE 在威胁、效率和难以察觉性方面表现出了最先进的性能。因此,STDE 有潜力成为评估视频识别模型鲁棒性的强大工具。

0
下载
关闭预览

相关内容

【AAAI2022】基于渐进式增强学习的人脸伪造图像检测
专知会员服务
21+阅读 · 2022年1月19日
【ICLR2021】神经元注意力蒸馏消除DNN中的后门触发器
专知会员服务
13+阅读 · 2021年1月31日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
23+阅读 · 2019年12月15日
GNN 新基准!Long Range Graph Benchmark
图与推荐
0+阅读 · 2022年10月18日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月12日
Arxiv
1+阅读 · 2023年5月11日
Arxiv
23+阅读 · 2020年9月16日
VIP会员
相关VIP内容
【AAAI2022】基于渐进式增强学习的人脸伪造图像检测
专知会员服务
21+阅读 · 2022年1月19日
【ICLR2021】神经元注意力蒸馏消除DNN中的后门触发器
专知会员服务
13+阅读 · 2021年1月31日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
23+阅读 · 2019年12月15日
相关基金
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员