Transformer替代CNN?8篇论文概述最新进展!

2021 年 1 月 19 日 专知

转载机器之心

机器之心编辑部

Transformer 有可能替代 CNN 吗?现在下结论还为时过早。


Transformer 的跨界之旅,从 2020 延续到了 2021。

2020 年 5 月,Facebook AI 推出了 Detection Transformer(DETR),用于目标检测和全景分割。这是第一个将 Transformer 成功整合为检测 pipeline 中心构建块的目标检测框架, 在大型目标上的检测性能要优于 Faster R-CNN。

DETR-R101 处理的全景分割结果。

2020 年 10 月,谷歌提出了 Vision Transformer (ViT) ,能直接利用 Transformer 对图像进行分类,而不需要卷积网络。该模型可以获得与当前最优卷积网络相媲美的结果,但其训练所需的计算资源大大减少。谷歌在论文中写道: 这项研究表明,对 CNN 的依赖不是必需的。当直接应用于图像块序列时,transformer 也能很好地执行图像分类任务。

2020 年 12 月,复旦大学、牛津大学、腾讯等机构的研究者提出了 SEgmentation TRansformer(SETR),将语义分割视为序列到序列的预测任务,该模型在 ADE20K 上排名第一,性能优于 OCNet、GCNet 等网络。

元旦刚过,OpenAI 又连放大招 ,用 DALL·E 和 CLIP 打破了自然语言与视觉的次元壁。两个模型都利用 Transformer 达到了很好的效果,前者可以基于本文直接生成图像,后者则能完成图像与文本类别的匹配。

DALL·E 示例。给出一句话「牛油果形状的椅子」,就可以获得绿油油、形态各异的牛油果椅子图像。

这些研究覆盖了图像分类、目标检测、语义分割等 CV 主流方向。因此有人提问:未来,Transformer 有可能替代 CNN 吗?

这一问题在知乎、Reddit 等平台上都有人讨论。从讨论的结果来看,大部分人认为 Transformer 和 CNN 各有优劣,二者可能并非取代和被取代的关系,而是互相融合,取长补短 。从研究现状来看,Transformer 在 CV 领域的应用还需要解决计算效率低等问题。

Transformer 取代 CNN?下结论还为时过早

在知乎讨论区,用户 @小小将指出,「目前我们看到很大一部分工作还是把 transformer 和现有的 CNN 工作结合在一起」。以 DETR 为例,该模型使用 CNN 从图像中提取局部信息,同时利用 Transformer 编码器 - 解码器架构对图像进行整体推理并生成预测。

声称「 对 CNN 的依赖并非必需 」的 ViT 模型可能也不例外。@小小将表示,「ViT 其实也是有 Hybrid Architecture(将 ResNet 提出的特征图送入 ViT)」。@mileistone 也认为,「(ViT)文章里提出的方法中会将图片分成多个无 overlap 的 patch,每个 patch 通过 linear projection 映射为 patch embedding,这个过程其实就是卷积,跟文章里声称的不依赖 CNN 自相矛盾。」


由于 CNN 和 Transformer 各有优势和不足,这种融合的做法出现在很多 Transformer 的跨界论文中。

在解释 CNN 和 Transformer 各自的优缺点时,用户 @齐国君提到,「CNN 网络在提取底层特征和视觉结构方面有比较大的优势。这些底层特征构成了在 patch level 上的关键点、线和一些基本的图像结构。这些底层特征具有明显的几何特性,往往关注诸如平移、旋转等变换下的一致性或者说是共变性。CNN 网络在处理这类共变性时是很自然的选择。但当我们检测得到这些基本视觉要素后,高层的视觉语义信息往往更关注这些要素之间如何关联在一起进而构成一个物体,以及物体与物体之间的空间位置关系如何构成一个场景,这些是我们更加关心的。目前来看,transformer 在处理这些要素之间的关系上更自然也更有效。」

从现有的研究来看,二者的结合也确实实现了更好的结果,比如近期的《Rethinking Transformer-based Set Prediction for Object Detection》「还是把现有的 CNN 检测模型和 transformer 思想结合在一起实现了比 DETR 更好的效果(训练收敛速度也更快)」(引自 @小小将)。反过来说,如果全部将 CV 任务中的 CNN 换成 Transformer,我们会遇到很多问题,比如计算量、内存占用量大到无法接受。


未来研究思路

Transformer 的跨界之旅还在继续,那么未来有哪些可能的研究思路呢?

去年 12 月,来自华为诺亚方舟实验室、北京大学、悉尼大学的研究者整理了一份综述,详细归纳了多个视觉方向的 Transformer 模型。


论文链接:https://arxiv.org/pdf/2012.12556.pdf

此外,他们还在论文中初步思考并给出了三个未来的研究方向:

  1. 现有的 Visual Transformer 都还是将 NLP 中 Transformer 的结构套到视觉任务做了一些初步探索,未来针对 CV 的特性设计更适配视觉特性的 Transformer 将会带来更好的性能提升。

  2. 现有的 Visual Transformer 一般是一个模型做单个任务,近来有一些模型可以单模型做多任务,比如 IPT,未来是否可以有一个世界模型,处理所有任务?

  3. 现有的 Visual Transformer 参数量和计算量多大,比如 ViT 需要 18B FLOPs 在 ImageNet 达到 78% 左右 Top1,但是 CNN 模型如 GhostNet 只需 600M FLOPs 可以达到 79% 以上 Top1,所以高效 Transformer for CV 亟需开发以媲美 CNN。(引自 @kai.han)


类似的综述研究还有来自穆罕默德 · 本 · 扎耶德人工智能大学等机构的《Transformers in Vision: A Survey》。



论文链接:https://arxiv.org/pdf/2101.01169.pdf

有志于 Transformer 跨界研究的同学可以在读完综述后寻找自己感兴趣的研究方向。

参考链接:https://www.zhihu.com/question/437495132

专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“TCNN8” 可以获取Transformer替代CNN?8篇论文概述最新进展!专知下载链接索引

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
1

相关内容

Transformer是谷歌发表的论文《Attention Is All You Need》提出一种完全基于Attention的翻译架构

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【CVPR2021】基于Transformer的视频分割领域
专知会员服务
36+阅读 · 2021年4月16日
视觉目标跟踪十年研究进展
专知会员服务
86+阅读 · 2021年3月10日
【CVPR2021】用Transformers无监督预训练进行目标检测
专知会员服务
56+阅读 · 2021年3月3日
专知会员服务
85+阅读 · 2021年1月7日
多模态视觉语言表征学习研究综述
专知会员服务
191+阅读 · 2020年12月3日
【NeurIPS 2020】融入BERT到并行序列模型
专知会员服务
25+阅读 · 2020年10月15日
Transformer模型-深度学习自然语言处理,17页ppt
专知会员服务
102+阅读 · 2020年8月30日
BERT进展2019四篇必读论文
专知会员服务
67+阅读 · 2020年1月2日
用Transformer完全替代CNN
CVer
20+阅读 · 2020年10月23日
Attention最新进展
极市平台
5+阅读 · 2020年5月30日
基于关系网络的视觉建模:有望替代卷积神经网络
微软研究院AI头条
10+阅读 · 2019年7月12日
进一步改进GPT和BERT:使用Transformer的语言模型
机器之心
16+阅读 · 2019年5月1日
一文概览用于图像分割的CNN
论智
14+阅读 · 2018年10月30日
讲透RCNN, Fast-RCNN, Faster-RCNN,将CNN用于目标检测
数据挖掘入门与实战
18+阅读 · 2018年4月20日
2017年深度学习重大研究进展全解读
深度学习世界
3+阅读 · 2017年12月22日
论文 | 基于CNN的目标检测算法
七月在线实验室
9+阅读 · 2017年12月7日
VALSE2017系列之七:视觉与语言领域年度进展概述
深度学习大讲堂
9+阅读 · 2017年7月11日
深度学习在计算机视觉领域的前沿进展
我爱机器学习
11+阅读 · 2017年1月7日
Arxiv
23+阅读 · 2020年9月16日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Arxiv
7+阅读 · 2018年1月10日
VIP会员
相关VIP内容
【CVPR2021】基于Transformer的视频分割领域
专知会员服务
36+阅读 · 2021年4月16日
视觉目标跟踪十年研究进展
专知会员服务
86+阅读 · 2021年3月10日
【CVPR2021】用Transformers无监督预训练进行目标检测
专知会员服务
56+阅读 · 2021年3月3日
专知会员服务
85+阅读 · 2021年1月7日
多模态视觉语言表征学习研究综述
专知会员服务
191+阅读 · 2020年12月3日
【NeurIPS 2020】融入BERT到并行序列模型
专知会员服务
25+阅读 · 2020年10月15日
Transformer模型-深度学习自然语言处理,17页ppt
专知会员服务
102+阅读 · 2020年8月30日
BERT进展2019四篇必读论文
专知会员服务
67+阅读 · 2020年1月2日
相关资讯
用Transformer完全替代CNN
CVer
20+阅读 · 2020年10月23日
Attention最新进展
极市平台
5+阅读 · 2020年5月30日
基于关系网络的视觉建模:有望替代卷积神经网络
微软研究院AI头条
10+阅读 · 2019年7月12日
进一步改进GPT和BERT:使用Transformer的语言模型
机器之心
16+阅读 · 2019年5月1日
一文概览用于图像分割的CNN
论智
14+阅读 · 2018年10月30日
讲透RCNN, Fast-RCNN, Faster-RCNN,将CNN用于目标检测
数据挖掘入门与实战
18+阅读 · 2018年4月20日
2017年深度学习重大研究进展全解读
深度学习世界
3+阅读 · 2017年12月22日
论文 | 基于CNN的目标检测算法
七月在线实验室
9+阅读 · 2017年12月7日
VALSE2017系列之七:视觉与语言领域年度进展概述
深度学习大讲堂
9+阅读 · 2017年7月11日
深度学习在计算机视觉领域的前沿进展
我爱机器学习
11+阅读 · 2017年1月7日
Top
微信扫码咨询专知VIP会员