The application of self-supervised learning (SSL) and Vision Transformers (ViTs) approaches demonstrates promising results in the field of 2D medical imaging, but the use of these methods on 3D volumetric images is fraught with difficulties. Standard Masked Autoencoders (MAE), which are state-of-the-art solution for 2D, have a hard time capturing three-dimensional spatial relationships, especially when 75% of tokens are discarded during pre-training. We propose BertsWin, a hybrid architecture combining full BERT-style token masking using Swin Transformer windows, to enhance spatial context learning in 3D during SSL pre-training. Unlike the classic MAE, which processes only visible areas, BertsWin introduces a complete 3D grid of tokens (masked and visible), preserving the spatial topology. And to smooth out the quadratic complexity of ViT, single-level local Swin windows are used. We introduce a structural priority loss function and evaluate the results of cone beam computed tomography of the temporomandibular joints. The subsequent assessment includes TMJ segmentation on 3D CT scans. We demonstrate that the BertsWin architecture, by maintaining a complete three-dimensional spatial topology, inherently accelerates semantic convergence by a factor of 5.8x compared to standard ViT-MAE baselines. Furthermore, when coupled with our proposed GradientConductor optimizer, the full BertsWin framework achieves a 15-fold reduction in training epochs (44 vs 660) required to reach state-of-the-art reconstruction fidelity. Analysis reveals that BertsWin achieves this acceleration without the computational penalty typically associated with dense volumetric processing. At canonical input resolutions, the architecture maintains theoretical FLOP parity with sparse ViT baselines, resulting in a significant net reduction in total computational resources due to faster convergence.


翻译:自监督学习(SSL)与视觉Transformer(ViT)方法在二维医学影像领域展现出良好前景,但这些方法应用于三维体数据图像时面临诸多挑战。作为二维领域的先进解决方案,标准掩码自编码器(MAE)难以捕捉三维空间关系,尤其在预训练阶段丢弃75%令牌的情况下。我们提出BertsWin——一种结合完整BERT风格令牌掩码与Swin Transformer窗口的混合架构,以增强SSL预训练过程中的三维空间上下文学习。与经典MAE仅处理可见区域不同,BertsWin引入完整的三维令牌网格(包含掩码与可见令牌),保持了空间拓扑结构。为缓解ViT的二次复杂度问题,本架构采用单层局部Swin窗口。我们提出了结构优先损失函数,并在颞下颌关节锥形束CT数据上进行评估。后续评估包括三维CT影像的颞下颌关节分割任务。实验表明,BertsWin架构通过保持完整的三维空间拓扑,其语义收敛速度相比标准ViT-MAE基线提升5.8倍。进一步地,结合我们提出的GradientConductor优化器,完整BertsWin框架达到先进重建保真度所需的训练周期减少15倍(44周期对比660周期)。分析表明,BertsWin实现加速的同时并未产生稠密体数据处理通常伴随的计算代价。在标准输入分辨率下,该架构与稀疏ViT基线保持理论FLOP等效性,凭借更快的收敛速度实现了总体计算资源的显著净减少。

0
下载
关闭预览

相关内容

掩码自编码MAE
【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应
专知会员服务
15+阅读 · 8月5日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员