NeurlPS 2022 | 用于医学图像分割的类感知生成对抗Transformer

会员服务 ·

NeurlPS 2022 | 用于医学图像分割的类感知生成对抗Transformer

2022 年 10 月 24 日 PaperWeekly

论文标题：

Class-Aware Generative Adversarial Transformers for Medical Image Segmentation

收录会议：

NeurlPS 2022

论文链接：

https://arxiv.org/abs/2201.10737

解决的问题

本论文关注的领域是医学图像分割。在分割领域，Transformer 变得越来越流行，这得益于 Transformer 可以在全局建立长范围联系（long-range dependencipes）。但目前而言其也有其缺点，下面首先介绍传统 Transformer 在分割领域表示出来的一些不足。

1.1 传统Transformer只有单尺度特征表示

传统 Transformer 使用 Self-Attention 来计算特征表示（feature representation)，如 [2010.11929] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale（arxiv.org） [1] 论文所示，将图片块类比于句子中的单词，通过 embedding 进行注意力计算，最后得到的特征表示不具有多尺度概念。但在图像分割中多尺度特征对最后的结果也许会有很重要的提升。

1.2 传统Transformer采用的tokenization具有很大的盲目性

如 [2010.11929] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale（arxiv.org） [1] 所示，传统 Transformer 进行硬分割，将多少大小的像素点划为一个 patch，之后便送入 Transformer Encoder Module 中进行计算，这样固然可以连接全局联系，但在图像分割中我们总有需要关注的重点，例如本篇医学领域论文所需要重点关注器官、人体组织等局部部分，而其他背景区域则很可能对最终目标构成干扰。所以如何采取更具针对性的 tokenzation 方法也是十分重要的。

1.3 传统分割网络架构没能很好利用语义上下文

传统分割网络在得到特征表示后进行像素级别的分类，这个过程并不能完全利用好特征表示中的上下文特征。

解决问题的方法

2.1 使用CNN实现多尺度特征表示

如图所示，这里使用 ResNet 作为特征提取网络以得到多尺度特征图，并将多尺度特征图作为输入，以此来解决传统 Transformer 中单尺度的问题。这里共得到 4 个不同尺度的特征图，分别为：

2.2 使用Class-Aware Transformer Module实现针对性取样

上文分析过原 Transformer 使用硬分割选取 token 导致取样不具备针对性，在分割任务中也许会掺揉一些背景 token 导致准确率下降。这里受 [2108.01684] Vision Transformer with Progressive Sampling（arxiv.org） [2] 启发，采用迭代式方式逐步找到想要关注的局部信息。这里首先以原论文中的 tokenization 方法进行说明。

这里箭头初始点是初始取样位置（p1），箭头的终端是最终取样点位置（p4）。通过可视化可以发现取样点的偏移方向倾向于高度语义相关的地区，这也证明了 CAT 模块的有效性。

这里是注意力分布概率的可视化结果。注意力分布概率表示是 query patch 和 key patch 点积的 Softmax 结果分布，这里可以表示其他 patch 与 Query patch 的联系关系。

从可视化结果可以看出，在 layer1 到 layer4 的第一组 layers 中，模型中与 Query patch 具有相关联系的 patch 只是在色彩或纹理上有一定相似性，表明这里模型并没有建立起类知晓性质（class−awarenessproperty）。

而在 layer5 到 layer6第二组中可以发现模型开始关注那些与 Query patch 类系统的 patch，这里表现为在 layer5-2 中开始取样相同类的 patch，在 layer5-3 和 layer5-6 中关注所在类的边界。

而在更深的 layer 中，可以看到模型的注意力开始集中，并且开始关注其他类，这表明模型已经建立起类意识。

参考文献

[1] https://arxiv.org/abs/2010.11929

[2] https://arxiv.org/abs/2108.01684

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

登录查看更多

相关内容

分割

关注 0

Bioinformatics | MICER: 用于分子图像字幕的预训练编码-解码架构

专知会员服务

7+阅读 · 2022年8月22日

新加坡国立最新《Transformer医学图像分析》综述，33页pdf概述医学图像分类分割技术

专知会员服务

95+阅读 · 2022年8月16日

【TMI2022】C2FTrans:用于医学图像分割的从粗到细的Transformers

专知会员服务

24+阅读 · 2022年7月4日

CVPR2022 | 多模态Transformer用于视频分割效果惊艳

专知会员服务

42+阅读 · 2022年3月12日

【CVPR 2022】基于windows的图像压缩注意，The Devil Is in the Details: Window-based Attention for Image Compression

专知会员服务

8+阅读 · 2022年3月12日

【AAAI2022】在场景文本识别中，视觉语义学可以更好地进行文本推理

专知会员服务

17+阅读 · 2022年2月7日

【NeurIPS 2021】流形上的注意力机制：规范等变的Transformer

专知会员服务

30+阅读 · 2021年12月2日

【AAAI2021】基于双任务一致性的半监督医学图像分割

专知会员服务

31+阅读 · 2021年2月7日

【ECCV2020】EfficientFCN：语义分割中的整体引导解码器

专知会员服务

18+阅读 · 2020年8月23日

【CVPR2020-港科大-腾讯】基于注意力机制及多关系检测器的小样本物体检测

专知会员服务

39+阅读 · 2020年4月6日

NeurIPS 2022 | 基于对齐引导时间注意力机制的视频动作识别

PaperWeekly

0+阅读 · 2022年10月21日

CVPR 2022 | BoxeR：用于2D和3D Transformer的Box新注意力机制

CVer

0+阅读 · 2022年5月31日

大白话用Transformer做Object Detection

PaperWeekly

2+阅读 · 2022年5月3日

CVPR 2022 | GeoTransformer：基于Transformer的点云配准网络

PaperWeekly

2+阅读 · 2022年3月30日

CVPR 2022｜MPViT：用于密集预测的多路径视觉Transformer

极市平台

0+阅读 · 2022年3月15日

用Transformer完全替代CNN

CVer

20+阅读 · 2020年10月23日

PSPNet ——语义分割及场景分析

AI科技评论

20+阅读 · 2019年8月20日

自注意力机制在计算机视觉中的应用

GAN生成式对抗网络

19+阅读 · 2018年12月20日

一文概览用于图像分割的CNN

论智

14+阅读 · 2018年10月30日

《pyramid Attention Network for Semantic Segmentation》

统计学习与视觉计算组

44+阅读 · 2018年8月30日

基于非监督决策树的模糊图割模型的彩色图像分割研究

国家自然科学基金

0+阅读 · 2015年12月31日

多层次部件感知的几何形状分析及3D模型自动生成

国家自然科学基金

0+阅读 · 2012年12月31日

面向敏感网络图像过滤的原生数字图像文本提取关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

Arisandilactone A 的不对称全合成

国家自然科学基金

0+阅读 · 2012年12月31日

基于超图形XGML的图像半结构化研究

国家自然科学基金

0+阅读 · 2012年12月31日

数据驱动的彩色图像颜色空间建模与去噪

国家自然科学基金

1+阅读 · 2012年12月31日

骨肿瘤手术的医学影像导航系统关键技术研究

国家自然科学基金

2+阅读 · 2011年12月31日

基于语义的图像合成

国家自然科学基金

0+阅读 · 2011年12月31日

基于四元数的彩色图像边缘检测和分割方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于密码学的移动代理安全机制研究

国家自然科学基金

0+阅读 · 2009年12月31日

Mask DINO: Towards A Unified Transformer-based Framework for Object Detection and Segmentation

Arxiv

0+阅读 · 2022年12月12日

Automated ICD Coding using Extreme Multi-label Long Text Transformer-based Models

Arxiv

0+阅读 · 2022年12月12日

Implementing Neural Network-Based Equalizers in a Coherent Optical Transmission System Using Field-Programmable Gate Arrays

Arxiv

0+阅读 · 2022年12月9日

An Attention-based Multi-Scale Feature Learning Network for Multimodal Medical Image Fusion

Arxiv

0+阅读 · 2022年12月9日

Explain to me like I am five -- Sentence Simplification Using Transformers

Arxiv

0+阅读 · 2022年12月8日

Group Generalized Mean Pooling for Vision Transformer

Arxiv

0+阅读 · 2022年12月8日

EDTER: Edge Detection with Transformer

Arxiv

11+阅读 · 2022年3月16日

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

Arxiv

19+阅读 · 2020年11月18日

Data Augmentation using Pre-trained Transformer Models

Arxiv

17+阅读 · 2020年3月4日

UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training

Arxiv

15+阅读 · 2020年2月28日

VIP会员