【CVPR 2022】基于灵活模态Transformer的人脸防伪 FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing - 专知VIP

会员服务 ·

0

CVPR 2022 · Transformer · 人脸防伪 · 中科院自动化所 · 论文 ·

2022 年 3 月 19 日

【CVPR 2022】基于灵活模态Transformer的人脸防伪 FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

目前基于多模态的人脸防伪算法存在两点不足：（1）基于多模态融合的方法要求提供与训练过程一致的模态样本，严重限制了算法的部署场景；（2）由于卷积操作挖掘视觉线索的挑战，基于ConvNet的模型对新出现的高保真攻击样本表现不佳。在本文工作中，我们提出了一基于纯Transformer的框架，称为灵活模态的Transformer（FM-ViT），用于人脸防伪任务，以借助多模态信息灵活地提升对任何单一模态攻击的识别性能。为了实现该目的，FM-ViT首先为每种模态保留一个特定的分支，以学习不同的模态信息。同时引入跨模态Transformer块（CMTB），由两个级联的注意力模块组成，分别称为Multi-headed Mutual-Attention（MMA）和Fusion-Attention（MFA），分别用于引导每个分支学习潜在的和模态无关的活性特征。

具体来说，如图1（a）所示，FM-ViT建立在多个ViT分支上，由token化模块、Transformer编码器和分类头组成。一个完整的Transformer编码器包含K个“阶段”。其中每个“阶段”由M个标准Transformer块（STB）和一个跨模态Transformer块（CMTB）堆叠。在每个“阶段”中，CMTB共享权值（用红色双箭头线显示），并接收之前多模态STBs的输出作为输入（用虚线显示）。如图1（b）所示，CMTB由两个级联的MMA和MFA组成。STBs与CMTB构成Transformer编码器的一个“阶段”。如图1（c）所示，MMA计算所有模态的相关图，以挖掘任意模态分支中潜在patch tokens；MFA为任意模态分支融合其他分支的模态信息，指导当前分支学习模态无关的活性特征。

图. 一种基于灵活模态的人脸防伪方法示意图

作者：Ajian Liu, Zichang Tan, Jun Wan, Yanyan Liang, Zhen Lei, Guodong Guo, Stan Z. Li

成为VIP会员查看完整内容

17

相关内容

CVPR 2022

CVPR 2022 将于2022年 6 月 21-24 日在美国的新奥尔良举行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写，即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议，会议的主要内容是计算机视觉与模式识别技术。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【CVPR 2022】基于时空解耦与重耦的RGB-D动作识别 Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based Motion Recognition

【CVPR 2022】基于时空解耦与重耦的RGB-D动作识别 Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based Motion Recognition

专知会员服务

14+阅读 · 2022年3月19日

【CVPR 2022】长尾视觉数据识别的嵌套式协同学习方法 Nested Collaborative Learning for Long-Tailed Visual Recognition

【CVPR 2022】长尾视觉数据识别的嵌套式协同学习方法 Nested Collaborative Learning for Long-Tailed Visual Recognition

专知会员服务

13+阅读 · 2022年3月19日

【CVPR 2022】基于粗粒度和细粒度特征匹配的视频描述评估，EMScore: Evaluating Video Captioning via Coarse-Grained and Fine-Grained Embedding Matching

【CVPR 2022】基于粗粒度和细粒度特征匹配的视频描述评估，EMScore: Evaluating Video Captioning via Coarse-Grained and Fine-Grained Embedding Matching

专知会员服务

10+阅读 · 2022年3月19日

【CVPR 2022】MixFormer：跨窗口与维度的特征融合，MixFormer: Mixing Features across Windows and Dimensions

【CVPR 2022】MixFormer：跨窗口与维度的特征融合，MixFormer: Mixing Features across Windows and Dimensions

专知会员服务

15+阅读 · 2022年3月19日

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

专知会员服务

32+阅读 · 2022年3月12日

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

专知会员服务

64+阅读 · 2022年3月6日

【CVPR2021】基于反事实推断的视觉问答框架

【CVPR2021】基于反事实推断的视觉问答框架

专知会员服务

27+阅读 · 2021年3月4日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知会员服务

20+阅读 · 2021年3月2日

【CVPR2020-加州理工大学Devi Parikh】多任务视觉和语言表示学习

【CVPR2020-加州理工大学Devi Parikh】多任务视觉和语言表示学习

专知会员服务

38+阅读 · 2020年2月25日

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

专知会员服务

92+阅读 · 2019年12月22日

CVPR 2022 | Mobile-Former来了！微软提出：MobileNet+Transformer轻量化并行网络

CVPR 2022 | Mobile-Former来了！微软提出：MobileNet+Transformer轻量化并行网络

极市平台

0+阅读 · 2022年4月4日

CVPR 2022｜MPViT：用于密集预测的多路径视觉Transformer

CVPR 2022｜MPViT：用于密集预测的多路径视觉Transformer

极市平台

0+阅读 · 2022年3月15日

ICLR 2022 | 新注意力！用于ViT的QuadTree Attention

ICLR 2022 | 新注意力！用于ViT的QuadTree Attention

CVer

0+阅读 · 2022年3月2日

完全基于Transformer的目标检测器，ICLR匿名论文实现视觉、检测统一

完全基于Transformer的目标检测器，ICLR匿名论文实现视觉、检测统一

机器之心

1+阅读 · 2022年2月10日

当可变形注意力机制引入Vision Transformer

当可变形注意力机制引入Vision Transformer

极市平台

1+阅读 · 2022年1月23日

一文详解Vision Transformer（附代码）

一文详解Vision Transformer（附代码）

PaperWeekly

4+阅读 · 2022年1月19日

论文浅尝 | 基于多模态特征的视觉实体链接

论文浅尝 | 基于多模态特征的视觉实体链接

开放知识图谱

1+阅读 · 2022年1月7日

无需卷积，完全基于Transformer的首个视频理解架构TimeSformer出炉

无需卷积，完全基于Transformer的首个视频理解架构TimeSformer出炉

机器之心

1+阅读 · 2021年3月16日

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

机器之心

15+阅读 · 2019年9月3日

AAAI 2018 行为识别论文概览

AAAI 2018 行为识别论文概览

极市平台

18+阅读 · 2018年3月20日

基于视频刺激fMRI的视觉特征神经编码空间研究

国家自然科学基金

0+阅读 · 2014年12月31日

融合视觉多信息的网络化控制系统研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于TP模型变换方法的视觉伺服控制技术研究

国家自然科学基金

2+阅读 · 2013年12月31日

房颤复发机制中的心房电同步性与易颤性关系的研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于立体视觉深度学习的车辆前方可通行性分析研究

国家自然科学基金

2+阅读 · 2012年12月31日

基于PCA与二代Curvelet变换的多模态医学图像融合方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于深度学习的多模态神经影像融合分析与脑疾病诊断

国家自然科学基金

7+阅读 · 2012年12月31日

基于分数梅林变换的光学图像加密方案研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于多通道体全息光学相关的遥感图像多维线/角位移测量技术

国家自然科学基金

0+阅读 · 2011年12月31日

基于不变性知觉的双目视觉注意机制研究

国家自然科学基金

0+阅读 · 2009年12月31日

Blockwise Streaming Transformer for Spoken Language Understanding and Simultaneous Speech Translation

Blockwise Streaming Transformer for Spoken Language Understanding and Simultaneous Speech Translation

Arxiv

0+阅读 · 2022年4月19日

Multimodal Token Fusion for Vision Transformers

Arxiv

3+阅读 · 2022年4月19日

INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL

Arxiv

0+阅读 · 2022年4月18日

Dynamic Position Encoding for Transformers

Arxiv

1+阅读 · 2022年4月18日

Vision-Language Pre-Training for Multimodal Aspect-Based Sentiment Analysis

Arxiv

0+阅读 · 2022年4月17日

TubeR: Tubelet Transformer for Video Action Detection

Arxiv

0+阅读 · 2022年4月15日

Invariant Information Bottleneck for Domain Generalization

Invariant Information Bottleneck for Domain Generalization

Arxiv

15+阅读 · 2021年12月10日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual Dialogue

KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual Dialogue

Arxiv

12+阅读 · 2020年8月11日

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

Arxiv

14+阅读 · 2018年3月14日

VIP会员

相关主题

中科院自动化所

相关VIP内容

【CVPR 2022】基于时空解耦与重耦的RGB-D动作识别 Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based Motion Recognition

【CVPR 2022】基于时空解耦与重耦的RGB-D动作识别 Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based Motion Recognition

专知会员服务

14+阅读 · 2022年3月19日

【CVPR 2022】长尾视觉数据识别的嵌套式协同学习方法 Nested Collaborative Learning for Long-Tailed Visual Recognition

【CVPR 2022】长尾视觉数据识别的嵌套式协同学习方法 Nested Collaborative Learning for Long-Tailed Visual Recognition

专知会员服务

13+阅读 · 2022年3月19日

【CVPR 2022】基于粗粒度和细粒度特征匹配的视频描述评估，EMScore: Evaluating Video Captioning via Coarse-Grained and Fine-Grained Embedding Matching

【CVPR 2022】基于粗粒度和细粒度特征匹配的视频描述评估，EMScore: Evaluating Video Captioning via Coarse-Grained and Fine-Grained Embedding Matching

专知会员服务

10+阅读 · 2022年3月19日

【CVPR 2022】MixFormer：跨窗口与维度的特征融合，MixFormer: Mixing Features across Windows and Dimensions

【CVPR 2022】MixFormer：跨窗口与维度的特征融合，MixFormer: Mixing Features across Windows and Dimensions

专知会员服务

15+阅读 · 2022年3月19日

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

专知会员服务

32+阅读 · 2022年3月12日

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

专知会员服务

64+阅读 · 2022年3月6日

【CVPR2021】基于反事实推断的视觉问答框架

【CVPR2021】基于反事实推断的视觉问答框架

专知会员服务

27+阅读 · 2021年3月4日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知会员服务

20+阅读 · 2021年3月2日

【CVPR2020-加州理工大学Devi Parikh】多任务视觉和语言表示学习

【CVPR2020-加州理工大学Devi Parikh】多任务视觉和语言表示学习

专知会员服务

38+阅读 · 2020年2月25日

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

专知会员服务

92+阅读 · 2019年12月22日

热门VIP内容

开通专知VIP会员享更多权益服务

《美陆军徒步机动作战条令手册》最新168页

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

军事后勤数字化未来展望

《美海军后勤体系整合与创新挑战》最新报告

相关资讯

CVPR 2022 | Mobile-Former来了！微软提出：MobileNet+Transformer轻量化并行网络

CVPR 2022 | Mobile-Former来了！微软提出：MobileNet+Transformer轻量化并行网络

极市平台

0+阅读 · 2022年4月4日

CVPR 2022｜MPViT：用于密集预测的多路径视觉Transformer

CVPR 2022｜MPViT：用于密集预测的多路径视觉Transformer

极市平台

0+阅读 · 2022年3月15日

ICLR 2022 | 新注意力！用于ViT的QuadTree Attention

ICLR 2022 | 新注意力！用于ViT的QuadTree Attention

CVer

0+阅读 · 2022年3月2日

完全基于Transformer的目标检测器，ICLR匿名论文实现视觉、检测统一

完全基于Transformer的目标检测器，ICLR匿名论文实现视觉、检测统一

机器之心

1+阅读 · 2022年2月10日

当可变形注意力机制引入Vision Transformer

当可变形注意力机制引入Vision Transformer

极市平台

1+阅读 · 2022年1月23日

一文详解Vision Transformer（附代码）

一文详解Vision Transformer（附代码）

PaperWeekly

4+阅读 · 2022年1月19日

论文浅尝 | 基于多模态特征的视觉实体链接

论文浅尝 | 基于多模态特征的视觉实体链接

开放知识图谱

1+阅读 · 2022年1月7日

无需卷积，完全基于Transformer的首个视频理解架构TimeSformer出炉

无需卷积，完全基于Transformer的首个视频理解架构TimeSformer出炉

机器之心

1+阅读 · 2021年3月16日

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

机器之心

15+阅读 · 2019年9月3日

AAAI 2018 行为识别论文概览

AAAI 2018 行为识别论文概览

极市平台

18+阅读 · 2018年3月20日

相关基金

基于视频刺激fMRI的视觉特征神经编码空间研究

国家自然科学基金

0+阅读 · 2014年12月31日

融合视觉多信息的网络化控制系统研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于TP模型变换方法的视觉伺服控制技术研究

国家自然科学基金

2+阅读 · 2013年12月31日

房颤复发机制中的心房电同步性与易颤性关系的研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于立体视觉深度学习的车辆前方可通行性分析研究

国家自然科学基金

2+阅读 · 2012年12月31日

基于PCA与二代Curvelet变换的多模态医学图像融合方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于深度学习的多模态神经影像融合分析与脑疾病诊断

国家自然科学基金

7+阅读 · 2012年12月31日

基于分数梅林变换的光学图像加密方案研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于多通道体全息光学相关的遥感图像多维线/角位移测量技术

国家自然科学基金

0+阅读 · 2011年12月31日

基于不变性知觉的双目视觉注意机制研究

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

Blockwise Streaming Transformer for Spoken Language Understanding and Simultaneous Speech Translation

Blockwise Streaming Transformer for Spoken Language Understanding and Simultaneous Speech Translation

Arxiv

0+阅读 · 2022年4月19日

Multimodal Token Fusion for Vision Transformers

Arxiv

3+阅读 · 2022年4月19日

INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL

Arxiv

0+阅读 · 2022年4月18日

Dynamic Position Encoding for Transformers

Arxiv

1+阅读 · 2022年4月18日

Vision-Language Pre-Training for Multimodal Aspect-Based Sentiment Analysis

Arxiv

0+阅读 · 2022年4月17日

TubeR: Tubelet Transformer for Video Action Detection

Arxiv

0+阅读 · 2022年4月15日

Invariant Information Bottleneck for Domain Generalization

Invariant Information Bottleneck for Domain Generalization

Arxiv

15+阅读 · 2021年12月10日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual Dialogue

KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual Dialogue

Arxiv

12+阅读 · 2020年8月11日

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

Arxiv

14+阅读 · 2018年3月14日

微信扫码咨询专知VIP会员